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Liunx 행심부해설서 


머 리 말 

위대한 령도자 김정일동지께서는 다음과 같이 지적하시였다. 

《전자공학부문의 과학자, 기술자들은 이미 이룩한 성과와 경험에 기초하여 전자공학과 
전자공업을 새로운 높은 단계에로 발전시키며 인민경제 중요부문의 전자계산기화, 로보트화를 
실현하기 위한 투쟁을 힘있게 벌려야 합니다. 새로 개발한 극소형계산기에 쓰이는 전자요소와 
전자재료들의 특성을 개선하고 자급률을 높이며 프로그람을 적극 개발하고 전자계산기의 

리용분야를 넓혀나가도록 하여야 합니다.》 (《김정 일선집》제12권，200패지) 

오늘날 과학과 기술이 급속히 발전하고 생산과 경영활동에서 부문별 련계가 보다 밀 
접해지고있는 사정은 정보기술을 하루빨리 발전시켜 인민경제 모든 부문에서 콤퓨터화수 
준을 보다 높은 수준에 로 끌어올릴것 을 요구하고있 다. 

특히 세계적으로 정보산업분야에서 기술경쟁이 그 어느 분야에서보다 치렬하게 벌어 
지고있는 사정은 우려 식의 프로그람을 적극 개발하여 나라의 정보산업을 최단기간내 세 
계 적 수준에 끌어올릴것 을 절 박하게 요구하고있 다. 

위대 한 령 도자 김 정 일동지의 현명한 령도밑 에 우리 나라의 과학자, 기술자들은 정 보 
산업시대의 요구에 맞게 우리 식의 조작체계 《붉은별》을 개발함으로써 주체적 인 정보기 
술발전에서 획기적인 전환을 가져오게 하였다. 

이 책에서는 조작체계에서 가장 기본적인 프로그람부분인 핵심부프로그람에 대하여 서 
술하였다. 구체적으로 원천코드가 완전히 공개된 Linux 핵심부 2.6. 9판을 대상으로 그 동 
작원리와 프로그람적인 실현에 대하여 8개장에 걸쳐 해설하였다. 

우리 는 프로그람기 술에 정 통하고 새 로운 프로그람들을 적 극 개 발함으로써 사회 주의 강 
성대국건설에 크게 이바지하여야 한다. 
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제 1 장. 핵심부의 기초개념 

제 1 절. 기본개념 

1. : Linux 의 발전력사 

Linux 는 Unix 계조작체계 로서 그 발전을 Unix 의 발전과 떼 여놓고 생각할수 없다. 

1) Unix 의 발전 

Unix 체계는 근 40 년의 력사를 가지고있다. 첫 Unix 체계는 1969 년 벨연구소가 개 
발하였다. 이 체계는 완전히 C 언어로 되여있으며 아쌤블러어가 거의 없었다. 그후 15 년 
간 연구와 개발이 계속 진행되였으며 SVR4 라고 하는 강력한 조작체계가 출현하였다. 

벨연구소 개발자들은 Multics 프로젝트에 대한 연구를 진행하여 새로운 조작체계에 
영향을 주었다. 즉 Unix 파일체계와 지령해석기로서 리용자프로쎄스를 러용할데 대한 
문제，파일체계대면부의 일반적인 조직화 등을 들수 있다. 새로운 프로쎄스를 생성하는 
fork 조작은 버클리의 GENIE 로부터 도입되였다. 

Unix 체계가 다른 체계들과 차이나는 점은 다음과 같다. 

첫째로, Unix 체계는 고급언어로 씌여져있다. Unix 체계에서는 체계원천코드가 아 
쌤블러어보다 C 언어가 더 많이 씌여져있다. 실례로 결합부절환과 같은 하드웨어에 대한 
호출에 서 는 조작체 계 함수들의 3% 를 아쌤 블리 어 로 리 용한다. 

둘째로， Unix 체계는 원천코드의 형태로 배포하였다. Unix 는 원천코드를 제공하여 
다른 사람들이 체계를 리용하지만 내부작업을 서투르게 진행하지 못하게 하였다. 누구나 
체계의 개발자이면서 리용자이므로 새롭게 자기 견해를 담을수 있다. 

셋째로, Unix 체계는 보다 더 값비싼 하드웨어상에서 실행하는 조작체계들에서만 
볼수 있는 강력한 원시함수들을 제공한다. 

초기에는 Unix 체계가 PDP-11 상에서 실현되였는데 이 를퓨터는 당시로서는 값이 
눅고 강력한 기계였다. 그러나 PDP-11 은 작은 주소공간을 가지고있어 불편하였다. 그 
후 VAX-11/780 과 같이 32bit 주소공간을 가진 기계가 소개되고 가상기억기와 망을 포 
함하여 Unix 의 기능이 대폭적으로 확장되였다. 

1978 년 7 번째 판이 출현한 후 연구그루빠는 Unix 지원그를 (USG) 으로 대외적인 배 
포물을 바꾸었다. USG 는 이전에 Unix 프로그람작성 자의 작업환경 (PWB) 과 같은 체 계 
를 내적으로 배포하고 때때로 대외적으로도 배포하였다. 

7 번째 판 다음의 대외적인 배포물로서는 1982 년에 UNIX System III 이 출현하였 
는데 이것은 7 번째 판과 32V(VAX 의 변종)，기타 Unix 체계의 특징들을 포함하고있었 
다. 이와 함께 UNIX/RT (실시간 Unix 체계)특징과 PWB 의 많은 특징을 포함하였다. 
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USG 는 1983년 에 System V 를 안정 화하여 공개하였 다. 1984년 USG 는 자기 의 명 
칭을 USDL ( UNIX 체 계 개 발연구소)로 바꾸고 System V Release 4를 출하하였다. 이 
체 계 는 페 지 화와 쓰기 복사 (copy on write ) ， 공유기 억 기도입 등 여 러 점 에서 많은 기 능 
이 갱신되였다. 

1987년 AT & T 정 보체 계 ( ATTIS ) 를 완성 하여 UNIX System V Release 8을 배 포 
하였다. 여기서 프로쎄스사이통신 ( IPC ) 기구가 도입되였다. 사실 이것은 V 8(8 번째 판) 
로부터 도입되였다. 

USL ( Unix 체계 연구소) 은 1993년 ATTIS 를 완성 하여 Novell 회사에 판매 하였다. 
2년 후 Novell 은 Unix 를 SCO (Santa Cruz Operation ) 에 판매 하였 다. 

Unix 의 형태는 다종다양하다. 

대표적인것이 Microsoft 회사와 SCO 가 공동으로 개발한 XENIX 이다. 이 체계는 
원래 7번째 판에 기초하고있었으나 그후 System V 에 기초하여 갱 신되 였다. 

다음의 대표적인 체계는 버클리의 켈리포니아종합대학에 있는 연구집단이 개발한 버 
들리쏘프트웨어배포물 ( BSD ) 이 있다. 이 체계는 가상기억기와 요구패지화，폐지재배치 
기능을 추가하여 1979년 BSD 3 을 발표하였다. 4 BSD 에는 인터네트망통신규약 TCP/IP 
를 제 공하고 광대역 과 여 러 가지 망기 구에 대 응하였 다. 4.4 BSD 에 서 는 가상기 억 체 계 를 
갖추고 68000, SPARC , MIPS , Intel PC 에서 가동을 실현하였다. 

2) Linux 의 발전 

Linux 체 계는 1991년 당시 필란드의 헬싱키대 학 학생이였던 리누스 토발즈 (Linus 
B . Tovalds ) 가 386콤퓨터에서 실행가능한 Minix 와 비슷한 조작체계를 만들기 시작한 
데서 시작되였다고 말할수 있다. 처음에 리누스는 조작체계의 이름을 Freax 라고 지으려 
고 하였다. MS - DOS 는 보호방식등에서 386의 성질을 충분히 끌어낼수 없기때문에 리 
누스는 새로운 기능과 성 질을 추가하기 위해 쏘프트웨어의 일부를 바꾸어 쓰기 시 작하였 
다. 그후 그 결과를 Linux ( Linus + Unix ) 라는 이름으로 인터네트의 새소식교환마당인 
《Net News ) 에 무료로 공개하였다. 

그는 초기판본을 0.이로서 1991년 8월에 공개하면서 공동개발을 호소하였으며 어 
떠한 공식성명도 하지 않았다. 공식판본은 0.02 로서 1991년 10월에 발표되였다. 이 체 
계에서는 bash 와 gcc 와 같은 여러 형태의 GNU 프로그람이 동작하였다. 

단일 CPU 의 i 386 기계 에서만 실행 가능한 Linux 핵심부 1.0 의 공식안정판은 1994년 
3월 이 였 다. 그후 이 에 호응하여 세 계 각국의 쏘프트웨 어개 발자들이 자발적 으로 참가하 
여 세 계 적 범 위 에 서 인 터 네 트를 통한 쏘프트웨 어 개 발체 계 가 구축되 였 다. 즉 쏘프트웨 어 개 
발자들은 체계개발에 대한 자기의 립장과 자기가 개발한 프로그람원천코드를 발표하고 
애호가들은 오유를 발견하고 프로그람에 대한 평가를 진행하며 주개발자는 이러한 내용 
들을 집 약해서 새 로운 판본의 체계를 완성 하여나가는 하나의 새 로운 개 발방법 이 출현하 
게 되였다. 
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리누스는 아직까지 Linux 체계를 개선하기 위한데 힘쓰고있으며 다양하게 발전하는 
하드웨어를 지원하도록 하는 한편 전세계 수백명에 이르는 Linux 개발자의 체계개발활 
동을 조종하고있다. 

1.0 판이 출현한 때로부터 1년후인 1995년 3월에 최초로 i 386 이 아닌 기반에서 실 
행가능한 (그러나 여전히 단일 CPU 에서만 동작하는 ) Linux 1.2 가 안정화되였다. 1996 
년 6월에 Linux 2.0 이 안정화되였다. 2.0 에는 동작가능한 여러 기반이 추가되였지만 
무엇보다도 다중 CPU 를 갖는 기계 ( SMP ) 에서 동작하는 최초의 판본이 였 다. 2.0 의 안정 
판 이후 주요판본의 안정판속도는 다소 늦춰졌다. Linux 2. 2판은 1999년 1월， 2. 4판 
은 20()1 년 1월에 각각 안정화되였다. 하지만 각각의 판본갱신은 자주 일어나 지원되는 
하드웨어의 범위와 확장성이 개선되여갔다. Linux 2. 4판은 제일 처음으로 ISA plug 
and play 와 USB , PC 카드 등의 기능을 추가하여 사용자들의 탁상판에서 사용할수 있 
는 판본으로 되 였 다. Linux 2. 6은 2003년 12월 17일 에 안정 화되 였 다. 2. 6은 다양한 
추가기능도 기능이지만 대 용량체 계 로부터 아주 작은 체계 (PDA 등)까지 골고루 지 원한 
다는 점에서 또 하나의 큰 개선을 가져온 판본이기도 하다. 

Linux 는 초기에는 개인용를퓨터만을 대상으로 개발되였지만 현재에는 DEC , 
Alpha 를 적재한 기계와 Sparc WS 등에서도 가동하는 기 반의 폭이 대 단히 넓 다. 많은 
개 발자들이 Hewlett Packard 의 Alpha 나 Intel 의 최 신 64 bit 처 리 장치인 Itaniurn , 
MIPS , SPARC , Motorola MC 680 x 0, PowerPC , IBM z 계렬 등 다양한 기본방식 
에서 Linux 를 사용할수 있도록 노력하고있다. 

Linux 체계는 POSIX 1003.1 과 UNIX System V , BSD 4. 3의 기능을 담고있다. 
사실 Windows NT 처럼 Unix 조작체계가 아니면서 POSIX 호환인 조작체계도 여러 종 
류가 있다. 

Linux 체 계 는 GNU 일반공개 특허 (GNU General Public License ) 의 조건에 의 해 
배포되며 리용자에게는 원천코드가 공개되고 수정과 복사, 배포가 자유롭다. GNU 의 어 
원은 영문자로 볼 때 《Gnu is Not Unix ) 인데 여기서 Gnu 는 남아프리카에서 서식하 
는 들소종류의 이 름이 다. GNU 는 1983년에 무료쏘프트웨 어재 단 ( FSF ) 의 창시 자인 리차 
드 스텔만 (Richard Stallman ) 에 의해 시작된 큰 프로젝트이며 그때 당시 프로젝트의 
이 름은 《 RMS 》 라고 하였 다. 그는 강력 한 본문편집 기인 emacs 를 제 작하였으며 MIT 
의 인공지능연구소에서 지도적인 지위를 맡고있다. 그는 무료로 배포되는 조작체계의 원 
천코드를 만들것을 목적으로 큰 규모의 프로젝트를 시작하기로 결심하고 체계에 필요한 
를파일 러 로부터 본문편집기 까지 모든 체 계 도구들을 만드는 방향으로 나가고있다. 

Linux 는 GNU 가 아니라 조작체계이며 GNU 의 조작체계는 Linux 가 아니라 
《 Hurd 》라는 이 틈으로 개 발되 고있 다. 기 술적 으로 따져 보면 Linux 는 Unix 핵 심 부이 지 
만 완전한 Unix 조작체계는 아니다. Linux 에는 파일체계편의프로그람이나 Windows 체 
계，도형탁상판, 체계관리명 령어，본문편집기，름파일러 같은 Unix 응용프로그람이 없 
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기 때 문이 다. 하지 만 이 프로그람들은 GNU 일 반공개특허 에 따라 자유롭게 사용할수 있기 
때 문에 Linux 가 지 원하는 파일 체 계 에 설 치할수 있 다. 

Linux 핵심부는 크게 개발단계와 안정화단계로 나누어 개발되고있으며 이 두 단계 
의 개발이 동시에 진행된다. 

개 발단계(개정단계 라고도 한다. )에서는 핵 심부의 믿음도보다는 새 로운 기능의 추가 
를 중시한다. 여기서는 새로운 착상을 시험해보기 위해 핵심부를 최적화하기도 하고 기 
능을 추가하기도 한다. 핵심부판본의 두번째 수자가 흘수이면 이 핵심부는 개정판핵심부 
로 된다. 즉 2.1, 2.3, 2. 5등으로 증가한다. 실례 로 핵 심부판본이 2. 5. 62라고 할 때 2 
는 판본번호이고 5는 흘수로서 개정판을 나타내며 62는 이 개정판이 62번째로 공개되였 
다는것을 나타낸다. 이 단계에서는 핵심부에 대해서 가장 많은 작업이 진행된다. 

안정화단계에서는 될수록 핵심부를 안전하게 하는것을 목적으로 한다. 여기서는 최 
소한의 수정과 조정이 진행된다. 핵심부판본은 두번째 수자가 짝수로 증가한다. 즉 2.2, 
2.4, 2.6 등으로 증가한다. 실례 로 2. 6. 9라고 할 때 안정 판핵 심 부 2. 6이 9번째 로 공개 
되였다는것을 의미한다. 

2. Linux 핵심부의 특징 

Linux 는 가상기 억 기, 가상파일체 계 , 《 가벼 운》프로쎄 스，믿음성 신호기， SVR 4 의 
프로쎄스사이의 통신, 대칭형다중처리기에 대한 지원 및 체계보안 등의 우월한 기능들을 
실현하고있 다. 

Linux 핵심부는 여러가지 론리적인 구성요소로 이루어진 복잡하고 비대하며 독립적 
인 프로그람이다. 전통적 으로 대부분의 Unix 핵 심부는 단일묶음방식 ( monoli 比 lie ) 핵 
심 부이 다. 

Linux 는 모둘을 단위로 동적으로 적재하거나 해제할수 있다. 대체로 Linux 에서는 
파일체계와 구동프로그람들을 모둘로 관리하고있다. 이 기능은 핵심부 2. 2판부터 제공 
하기 시작하였는데 기억기관리에서 효률적이다. 특히 Unix 체계에 비해 요구에 따라 자 
동적으로 적재 및 해제할수 있는 모둘지원기능이 갖추어져있다. 주요상용 Unix 변종중에 
서는 유일하게 SVR 4.2 와 Solaris 핵심부에 이와 류사한 기능이 있다. 

Linux 는 독립적으로 순서짜기할수 있는 실행결합부로서 핵심부스레드기능을 지원 
하고있다. 이 와 함께 다중스레 드식응용프로그람을 지 원함으로써 응용프로그람구조상 큰 
부분들을 공유할수 있는 응용프로그람을 개발할수 있게 된다. Solaris 2 .x 나 
SVR 4.2 /MP 같은 몇몇 최신 Unix 핵심부도 핵심부스레드 (kernel 比 iread ) 집합으로 이 
루어 져 있다. 핵 심부스레 드는 사용자프로그람과 련결되 기 도 하고 몇 가지 핵 심 부함수만을 
실행하기도 한다. 핵심부스레드사이의 결합부절 환 (context switch ) 은 대역 주소공간에 
서 이루어지기때문에 보통 일반 프로쎄스사이의 결합부절환에 비해 비용이 훨씬 적게 든 
다. Linux 에서는 핵심부의 기능중 몇가지를 주기적으로 실행하는 매우 제한된 목적에 
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만 핵 심부스레 드를 사용한다. Linux 핵 심부스레 드는 사용자프로그람을 실행 할수 없기 때 
문에 기본적인 실행결합부개념을 나타낸다고 할수 없다. 

대 부분의 현대 조작체 계 는 다중스레 드 ( multi 比 tread ) 응용프로그람 즉 응용프로그람에 
있는 자료구조의 상당한 부분을 공유하면서 상대적으로 독립적인 여러 실행흐름을 통해 
작업하도록 설계된 프로그람을 지원한다. 

다중스레 드 사용자응용프로그람은 많은 《 가벼 운 프로쎄 스 ( LWP ： lightweight 
process )》 로 이루어진다. 가벼운 프로쎄스는 대역주소공간, 대역물리기억폐지, 대역열 
린 과일 등에 서 동작하는 프로쎄 스이 다. 

Linux 는 SVR 4 나 Solaris 같은 체계에서 사용하는것과는 다른 독자적인 가벼운 프 
로쎄스를 실현한다. 상용 Unix 변종의 가벼운 프로쎄스는 모두 핵심부스레드에 기초하고 
있지만 Linux 는 가벼운 프로쎄스를 기본적인 실행결합부로 여기고 비표준인 clone 0체 
계 호출 (system call ) 을 통해 리용한다. 

Linux 핵심부는 다중처리장치도 지원하고있다. 즉 같은 처리장치가 여러개 존재하 
는 대칭형 다중처리기 ( SMP ) 도 지원하고있다. SMP 체계에서는 여 러 처 리장치를 사용할 
수 있고 각 처리장치가 어떤 작업 이든 할수 있으며 모든 처리장치가 서로 동등하다. 

Linux 에는 각이한 특징을 가진 표준 파일체계들이 존재한다. 특별한 요구가 없다 
면 이중에서 가장 일반적인 Ext 2 파일체계를 사용할수 있다. 체계가 꺼지고 다시 켜질 
때마다 파일체계검사가 동작하는것 이 싫다면 Ext 3 파일체계로 바물수도 있다. 작은 파일 
들을 많이 다루어야 한다면 ReiserFS 파일체계가 가장 효과적 이다. Ext 3 이나 ReiserFS 
외 에 Linux 원천코드에 는 들어있지 않지 만 몇 가지 기 록형 ( journaling ) 파일 체 계 를 사용 
할수도 있다. 이러한 파일체계로서는 IBM AIX 의 기록형파일체계 ( JFS , Journaling 
File System ) 와 SGI lrix 의 XFS 파일체계가 있다. 강력한 객체지향가상파일체계기술 
( Solaris 와 SVR 4 에서 제안)에 의해서 Linux 에서는 다른 조작체계의 파일체계를 
Linux 용으로 전환하는 작업 은 상대 적 으로 아주 쉽다. 

Linux 는 무료로 배포되므로 하드웨어와는 달리 비용을 전혀 들이지 않고도 설치를 
할수 있으며 모든 구성부분들을 마음대로 변경 할수 있다. 

Linux 핵심부는 요구되는 하드웨어준위가 다른 체계들에 비해 아주 낮다. 즉 주기 
억기가 4 MB 이고 CPU 가 80386인 장치조건에서도 망봉사기를 구축할수 있다. 

Linux 핵심부는 크기를 작게 할수 있으며 압축도 가능하다. 실례로 모든 기본체계 
프로그람기능을 다 포함한 핵심부와 완전한 뿌리파일체계를 1.4 MB 의 유연성디스크 1장 
에 구성할수 있 다. 

Linux 는 가동기 반의 폭이 대 단히 넓다. Linux 는 개 인용를퓨터 들에 가장 많이 쓰 
이고있는 Intel 계렬의 x 86(386, 486, Pentium 계렬， Itanium 등)의 처리장치뿐아니라 
AMD 나 Cyrix 와 같은 Intel 호환처리장치들도 지원하고있다. 이외에 Alpha , SUN 
Sparc , PowerPC , Crusoe , ARM , MC 680 x 0 등 각이한 기반의 처리장치들을 지원 
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하고있 다. 

Linux 는 일반 다른 조작체계들과 호환을 가전다. 실례로 MS - DOS , MS - 
Windows , SVR 4, OS /2, MacOS , Solaris , SunOS 등 여러 조작체계들과 파일체계 
준위와 코드준위에서 일정한 호환을 가지고있다. 

Linux 핵심부는 그 원천코드의 질이 대단히 높으며 개발속도도 빠르다. 핵심부는 
그 원천코드가 완전히 공개되여 세계의 많은 프로그람작성자들과 애호가들에 의해 인터 
네트를 통하여 개발되고 수정되기때문에 그 갱신속도가 빠르고 원천코드의 질도 높은 수 
준에서 보장되고있다. 매 일매시각 새로운 프로그람들과 기능들이 발표되고 기존의 프로 
그람들이 매우 빨리 수정되고있다. 만일 핵심부기능에서 치명적인 오유나 보안구멍이 발 
견되였다면 인차 그 문제를 해결하는 패치 (수정프로그람)가 원천코드로 발표되며 이것이 
다음번 판본에 반영되게 된다. 

Linux 핵심부 2. 6은 기업정보체계의 기능을 강화하고 체계의 확장성을 높이는데 기 
본을 두고 개발되였다. 이와 함께 과학기술계산을 위한 클라스터체계와 매몰기구, 노트 
형 PC 등 모바일환경을 지향하여 많은 기능을 제공하고있다. 

▲ 체계확장성의 향상 

다중처 리소자구성 에서의 처 리의 병 렬도가 더욱 높아지 고 다중처 러소자의 배 타조 
종기구가 성능이 향상되였다. 

핵심부 2. 6에서는 새롭게 《RCU : Read Copy Update ) 라고 하는 배타기구와 
( Sequence counter ) 라고 하는 배 타방식 을 도입 하였다. 이것은 종래의것보다 체 
계의 확장성을 높이는 기술로서 기대되고있다. 

한편 핵심부 2. 6에서는 그 전까지 완전히 병렬처리할수 있게 바꾸어쓰지 못하였 
던 코드를 모두 병렬처리를 할수 있는 새로운 코드로 써넣었다. 그 대부분이 장치구 
동기의 코드로 되고있다. 

핵 심부 2. 6에서는 많은 프로쎄스가 동시 에 실행할 때 처 리시간이 최 소로 되게 프 
로쎄 스순서 짜기 프로그람이 새 로운것 으로 바뀌 여 졌 다. 즉 프로쎄 스의 실 행 우선도마다 
에 대 기렬을 두고 그 대 기렬중에서 가장 높은 우선도를 가진 대 기렬의 선두로부터 
차례로 실행가능한 프로쎄스를 선택한다. 이 렇게 최소한의 검색량으로 차례로 실행 
하는 프로쎄스를 선택할수 있으며 실행가능프로쎄스가 여러개 동시에 존재하여도 성 
능이 떨어지지 않는다. 그리고 될수록 다중처리소자구성에서 각 CPU 부하상태를 
검사하고 부하가 클 때에만 프로쎄스를 다른 CPU 에로 이동시키게 하므로 CPU 사이 
에서 프로쎄스의 순서짜기에 걸리는 시간을 감소시키고있다. 

핵심부 2. 6에서는 NUM A ( Non-Uniform Memory Access ) 에 대응시키고있다. 
사실 종래의 대칭형다중처 리기 ( SMP ) 에서는 CPU 수가 증가할수록 성능이 떨어진다. 
따라서 처리소자수를 증가시키려는 경우에는 SMP 가 아니라 SMP 기계를 고속모선으 
로 결합하는 구성을 가진 비대칭형다중처리소자체계인 NUMA 을 받아들이고있다. 
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이렇게 되면 고성능인 대규모를퓨터를 비교적 낮은 가격으로 실현할수 있다. 

4 - 파일체계처리의 개선 

핵심부 2. 6의 최대의 특징이라고 할수 있는 기능은 파일체계와 블로크 I 八)의 처 
리효률이 상당히 개선된것이다. 이것은 대규모체계에서 성능을 떨구지 않게 해주는 
기능으로 된다. 

블로크에 로의 입출력처 리는 그의 순번조종과 입 출력 요구의 무리체 계 
( clustering ) 에 의해 높은 성능을 발휘하게끔 되여있다. 종래의 판본에서는 입출력 
처 리가 완충기 (완충기캐쉬)단위로 진행되였지만 핵심부 2. 6에서는 페지 (페지캐쉬)단 
위로 진행되게 되였으며 캐쉬는 모두 패지캐쉬로 통합되고 완충기캐쉬는 없어졌다. 
따라서 완충기캐쉬에 대해서 진행되던 자료분할과 통합작업이 생략되고 보다 처리를 
고속으로 진행할수 있게 되였다. 그리고 디스크에로의 지연쓰기는 파일단위로 진행 
할수 있게 되였다. 

파일입출력처 리의 병 렬도를 확장하였 다. 파일체 계와 블로크입출력계층의 배 타조 
종을 전면적으로 진행할수 있게 되였다. 

핵심부 2. 6에서는 대 용량의 기 억기를 효률적으로 관리할수 있는 기능이 추가되 
였다. 여기서는 상위기 억구역 이라고 해도 DMA 로 리 용할수 있는 령 역 이면 기 억기 와 
하드웨 어장치 사이 에서 직 접 자료를 전송할수 있게 되 여있다. 

핵 심부 2. 6에서는 I 八)순서짜기를 예측과 배 합하여 진행 하고있다. 새 로운 알고 
리듬은《1개의 프로쎄스는 계속하여 린접한 블로크에 대하여 갈은 종류의 입출력요 
구를 내보내 려는 경향이 있다.》라는 가정 에 기초하여 순서짜기를 진행하고있다. 즉 
련속인 입출력요구가 있는경우 그 시점에서 이에 계속하여 입출력요구가 없어도 약간 
기다리면 련속인 입출력요구가 발생할지도 모른다고 생각할수 있다. 이 입출력처리에 
는 예 측순서짜기 프로그람외 에 차단선 ( deadline ) 순서짜기 알고리 듬이 실현되 여 있다. 

아주 큰 자료에 대해서도 취급할수 있게 성능이 많이 개선되였다. 즉 크기가 
2 GB 를 넘는 파일과 2 TB 를 넘는 파일체계를 취급할수 있다. 

망파일체계 인 NFS v 3 의 성능을 대폭 확장하고 NFS v 4 도 지원하고있다. 

‘ 자료기지지향의 기능 

핵심부 2. 6에서는 자료기지의 리용을 전제로 하여 기능을 대폭 확장하고있다. 즉 
독자적인 캐쉬기능을 가지고 자체로 자료를 관리하고있는 자료기지쏘프트웨어의 호 
출특성에 맞게 기능을 확장하였다. 

벡토르읽기/쓰기가 여러 완충기에서 진행되며 처리를 묶어서 1번에 진행하므로 
입 출력처 리의 회수가 감소되 였다. 

핵 심부가 관리하는 폐지 고속완충기를 거 치지 않고 응용프로그람이 직접 파일 에 
호출하는 직접입출력기구는 무리체계기구와 벡토르읽기/쓰기에 의해 효률적으로 동 
작하게 된다. 
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비동기읽기/쓰기는 종래 에는 서 고준위 에서 보장하였지만 핵 심부 2. 6에서는 핵 심 
부준위에서 비동기"◦기능을 제공한다. 

옳 과부하시의 견덤성의 향상 

종래의 핵심부판본에서는 체계가 과부하로 되였을 때 성능이 극단으로 떨어졌 
지 만 핵 심부 2. 6에서는 그러한 과부하상태 에서도 일정 한 성능을 유지 할수 있게 되 여 
있다. 

폐지캐쉬상의 페지 와 프로쎄 스공간용으로 리용하고있는 폐지의 참조빈도수에 대 
한 비 교를 간단하게 만들므로써 과부하시 에도 폐지해 방을 효과적 으로 진행하며 일정 
한 성 능을 유지할수 있게 한다. 또한 교환크기 이 상으로 프로쎄 스공간이 확대 되 는것 
을 금지하며 응용프로그람이 폭주하여 교착상태 에 빠질 위험성도 감소시키 고있다. 

파일입출력처리의 부하가 높은 상태에서는 입출력요구가 가장 오랜 대기시간을 
정의하여 그 시간을 초과한 입출력요구를 우선적으로 처리함으로써 종전에 비해 입 
출력응답성을 높이고있다. 

망부하가 클 때 망구동기를 새치기구동으로부터 문의구동으로 바꾸어줌으로써 
필요이상의 새 치기 가 발생하지 않도록 억제 함으로써 처 리시 간을 가장 작게 한다. 

泰 가용성의 향상 

체계에서 될수록 봉사를 제공할수 없는 시간을 짧게 하고 봉사시간을 높이기 위 
한 기능이 강화되였다. 

핵심부 2. 6은 용도에 따라 네 가지 종류의 기 록형 파일체계 로부터 선택 하여 리 용 
할수 있다. 여기서는 Linux 용으로 개발된 Ext 3 와 ReiserFS 와 함께 상용 UNIX 로 
부터 이식된 JFS 와 XFS 도 러용할수 있다. 

동적파일체계확장기능을 가지고있다. 정기적으로 체계의 운영을 해나갈 때에는 
하드디스크 등 각종 자원을 확장하여야 하는데 핵심부 2. 6에서는 이 경우 파일체계 
를 리용하고있는 상태에서 핵심부가 인식하는 Volume 정보를 갱신하고 파일체계의 
크기 도 갱 신할수 있게 되 여있 다. 

4 망기능의 강화 

핵심부 2. 6에서는 IPv 6 의 기능이 종전의 판본에 비하여 대폭 강화되였다. 
USAGI 프로젝트 ( Linux 용의 완전한 IPv 6 의 실현을 목적으로 한 프로젝트)의 성과 
들이 도입되고 완성도도 높아지고있다. 

핵심부 2. 6에서는 UDP 와 TCP 의 중간층통신규약인 SCTP 을 제공하고있다. 

핵심부 2. 6에서는 통신을 암호화하는 기술의 하나인 IPSec 기능을 제공한다. 이 
기능은 IPv 4 와 IPv 6 에서 다 같이 리용할수 있다. 

핵심부 2. 6에서는 IP 의 적재균형기능인 IPVS 가 도입되였다. 따라서 부하분산 
형의 무리체계를 짜넣는것이 가능하다. 

4 보안기능의 강화 
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Linux 핵심부 2. 6에서는 Linux 보안모둘이 추가되여 보안기능이 대폭 강화되였 
다. 전통적인 UNIX 체계에서의 root 권한이 모든 파일에 대하여 접근권한을 가지고 
있었지만 Linux 에서는 프로쎄스마다에 한정된 권한을 제공하는 기능으로서 체계확 
장성을 위한 구조가 도입되고있다. 핵심부 2. 6에서는 이 구조를 다시 확장하고 용도 
에 따라서 각이한 접근조종방책을 핵심부에 짜넣을수 있게 하였다. 구체적으로 핵심 
부내의 각 오브젝트를 조작하는 개개의 개소마다 접근의 가부를 판정하는 함수를 짜 
넣고있 다. 

핵심부 2. 6에서는 소유자의 러용자 ID 와 그룹 ID 외에 POSIX ACL 형태의 접근조 
종도 가능하게 되 여있으므로 1개의 파일에 접근할수 있는 여 러사용자와 여 러 그룹을 
정의 하고 다시 개 개의 리용자와 그를마다에 접근권한을 설정할수 있게 된다. 

핵심부 2. 6에서는 핵심부내에서 각종 암호화처리함수를 갖추고있다. 현재 
HMAC , MD 4, MD 5, SHA -1, DES , Triple DES EDE , Blowfish , AES 등이 
제 공되 여 있 다. 

핵심부 2. 6에서는 이름공간을 프로쎄스마다 준비하여 그 프로쎄스용으로 파일나 
무를 파일체 계 에 태 우기할수 있게 되 여있다. 실례 로 FTP 봉사기 등으로 필요한 등록 
부밖에 보이지 않게 하며 특정한 프로쎄 스로 제 한된 이 름공간만을 제 공하게 하는 등 
의 목적에 리용할수 있다. 

4 - 전원관리기능의 강화 

종전의 핵 심 부판본에 서 는 ACPI (Advanced Configuration and Power 
Interface ) 의 일부 기능밖에 리용할수 없었지만 핵심부 2. 6에서는 대체로 모든 기능 
을 리 용할수 있게 되 여 있다. 또한 Windows 와 같이 쏘프트웨 어 suspend 라고 하는 
기 능이 제 공되 고 또한 CPU 의 동작주파수를 동적 으로 변경 할수 있게 되 여있다. 

4 - 매몰기구지향의 기능 

핵심부 2. 6에는 종전의 uCLinux 라고 하는 명칭으로 별도로 개발되고있던 
Linux 의 코드가 통합되여 조립용도의 생전력/생공간형의 CPU 에 정식으로 대응할 
수 있게 되 여있 다. 이 와 함께 MMU 기 능이 없는 조립 용도지 향의 CPU 를 동작시 킬수 
있게 되 여있 다. 

< 장치구동기의 확장 

핵 심부 2. 6에서는 수많은 장치구동기 를 제 공할수 있게 되 여있다. 

새롭게 USB 2.0 규격에 대응하였다. 종래의 저속 (1.5 Mbit / s ), 전속 (12 Mbit / s ) 
에 고속 (480 Mbit / s ) 의 전송속도를 보장하는것 이 추가되였다. 

종래의 체계의 OSS(Open Sound System ) 음성구동기대신에 ALSA 
(Advanced Linux Sound Architecture ) 구동기 가 도입 되 였다. 이 구동기는 눅은 
가격의 음성카드로부터 다중통로를 가진 음성대면부까지 폭넓게 제공하고있다. 또한 
◦ SS 호환대면부도 갖추고있으므로 지금까지 있던 음성관련응용프로그람도 그대 로 리 
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용할수 있다. 

고속으로 묘화를 진행할수 있는 AGP 3.0 규격 에 대 응한 구동기 를 제 공하고있다. 
따라서 현재 시장에 등장하고있는 이 규격의 비데오카드를 리용할수 있다. 

핵심부 2. 6에서는 새롭게 광범히 리용되기 시작한 각종 기가비트 이써네트카드에 
대응하고있 다. 


제 2 절. 조작체계의 기초 

모든 름퓨터체계에는《조작체계》라고 하는 기본적인 프로그람집합이 들어있고 이 
프로그람집 합에서 가장 중요한 역할을 담당하는 프로그람을《핵심부 ( kernel ) 》라고 한 
다. 핵심부는 체계가 초기기동할 때 BIOS 에 의해 주기억기에 적재되여 사용자응용프로 
그람과 콤퓨터 장치사이 의 결합을 가장 아래 준위 에 서 실현하는 핵 심 프로그람이 다. 바로 
체계의 본질적인 형태와 성능은 이 핵심부에 의해 좌우된다. 핵심부는 하드웨어와 웃준 
위쏘프트웨 어 에 대 한 조종과 그에 대한 요구처 리를 진행 함으로써 전체적 인 콤퓨터체 계 가 
사용자의 요구에 충실히 복무하도록 한다. 그리하여 때때로 핵심부자체를 가리켜 조작체 
계라고도 한다. 

Linux 와 Windows 등 현대적인 조작체계는 하드웨어와 조작체계의 구조를 몰라도 
간단히 응용프로그람을 작성할수 있는 환경을 제공하고있다. GUI 가 원만하여 리용자에 
있어서 러 용하기 쉬운 환경 으로 되 여있다. 자동차에 비 교하면 초기 자동차가 등장한 때 
에는 그 구조를 잘 알고있는 사람밖에 리용할수 없었지만 현재는 자동차의 내부구조를 
깊이 알고있지 않아도 간단히 운전할수 있는 기구가 잦추어져있다. 그러나 자동차의 성 
능을 최대한 리용하려고 하는 경우 내부구조에 대해 완전히 알아야 한다. 마찬가지로 름 
퓨터의 성능을 최대로 발휘하기 위해서는 리용자에 대하여서도 숨겨져있는 부분까지도 
리해할 필요가 제기된다. 그래야 체계의 약점으로 되는 부분을 발견할수 있고 보다 효률 
적 인 응용프로그람을 개발할수 있게 된다. 

조작체 계의 기 본기 능은 하드웨 어기 반을 이 루고있는 프로그람조종가능한 모든 저준위 
장치구성 요소들을 봉사하는 하드웨 어구성부분들과 호상작용하면서 를퓨터체 계 에서 실행 
되 고있는 응용프로그람들에 대 한 실행환경 을 보장하는것 이 다. 

1. 핵심부구조 

앞에 서 도 이 야기 한것 처 럼 대 부분의 Unix 핵 심부는 단일 묶음방식 이 다. 다시 말하여 
개개의 핵심부계층이 핵심부프로그람 하나에 통합되여있으며 현행프로쎄스를 대신 하여 
핵 심부방식 에서 동작한다. 이 와 반면에 《 마이 크로핵 심부 ( microkernel ) 》조작체 계 는 
일 반적 으로 몇 가지 의 동기 화원시 함수와 간단한 순서 짜기 프로그람, 프로쎄 스사이 의 통신 
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기구을 포함하여 매우 적은 기능만을 핵심부에 요구한다. 마이크로핵심부에서는 일부 체 
계 프로쎄 스를 실 행 하여 기 억 기 할당이 나 장치 구동프로그람, 체 계 호출운전기 등 다른 조작 
체계계층에 들어있는 기능을 실현한다. 

조작체 계 분야에 서 학술적 인 연구가 마이 크로핵 심 부방향으로 치 우쳐 있지 만 마이 크로 
핵심부조작체계의 여러계층사이에 통보문을 전달하는데 지내 품이 많이 들므로 일반적으 
로 단일묶음방식핵 심부보다 속도가 뜨다. 그러 나 마이크로핵 심부조작체계 에서는 단일묶 
음방식조작체계에 비해 리론적으로 몇가지 우점을 가지고있다. 마이크로핵심부의 각 조 
작체계계층은 잘 정의된 쏘프트웨어대면부를 통해서만 다른 계층과 호상작용할수 있는 
비 교적 독립 인 프로그람이 기때 문에 체 계 프로그람작성 자들이 모둘화된 접 근을 하도록 한 
다. 더우기 현재의 마이크로핵심부조작체계는 하드웨어에 의존하는 모든 구성요소를 마 
이크로핵 심부코드안으로 집 어 넣 었기때문에 다른 기 본방식 에 이 식 하기도 아주 쉽 다. 그러 
고 마이크로핵 심부조작체 계 에서는 불필요한 기능을 수행 하는 프로쎄 스를 바꾸어 내보내거 
나 (swap out ) 없 앨 수도 있 으므로 단일 묶음방식 조작체 계 보다 주기 억 기 를 효과적 으로 리 
용할수도 있다. 

Linux 핵심부는 성능을 떨어뜨리지 않고 마이크로핵심부의 여러가지 우점을 살리기 
위해 《모둘 ( module )》 을 제공한다. 모둘은 실행중인 핵심부에 련결될수 있는 (련결해 
제 도 가능) 오브젝트파일 이 다. 이 오브젝 트코드는 대체 로 파일체 계와 장치 구동프로그람, 
핵 심 부의 웃준위 에 있는 다른 기 능을 실현하는 함수의 집 합으로 되 여있 다. 모둘은 마이 
크로핵 심부조작체 계의 외부계 층과는 달리 개개의 프로쎄 스로 동작하지 않는다. 대 신에 
모둘은 정적으로 련결된 다른 핵심부함수와 마찬가지로 현행프로쎄스를 대신하여 핵심부 
방식에서 동작한다. 

모둘을 리용하면 여 러가지 우점 이 있다. 

우선 모둘화된 접근을 할수 있다. 모든 모둘은 실행중에 련결이나 련결해제를 할수 
있기때문에 체계프로그람작성자는 모둘이 다투는 자료구조에 접근할수 있도록 잘 정의된 
쏘프트웨어대면부를 제공하여야 한다. 그래야 새로운 기능을 실현하는 모둘을 쉽게 개발 
해나갈수 있다. 

다음으로 기반에 의존하지 않게 할수 있다. 모둘은 특정한 하드웨어에 국한된 기능 
을 사용할수도 있지만 보통은 고정된 하드웨어기반에 의존하지 않는다. 실례로 SCSI 표 
준에 맞게 작성된 디스크구동모둘은 IBM 름퓨터만이 아니라 Alpha 기계에서도 잘 동작 
한다. 

또한 모둘을 사용하면 주기억기를 적게 사용한다. 모둘은 그 기능이 필요한 때 실행 
중인 핵심부에 련결할수 있으며 더 이상 필요 없으면 련결해제할수도 있다. 핵심부는 자 
동적으로 련결과 해제를 진행하면서 기억기의 효률을 높인다. 

모둘을 사용하면 성 능을 유지할수 있 다. 일 단 한번 련결되 면 모둘의 오브젝 트코드는 
정적으로 련결된 핵심부의 오브젝트코드와 동등해진다. 따라서 모둘에 있는 함수를 호출 
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할 때에는 별도의 통보문전달이 필요없다. 

2. 파일체계개요 

파일체계는 자료관리의 제일 핵심적인 부분으로서 핵심부기능에서 중요한 자리를 차 
지한다. 여기서는 Linux 체계에서 파일관리에 대해서 개괄적으로 보기로 한다. 

1) 파일 

일반적으로 파일이라고 할 때 여러 바이트로 이루어진 정보를 담는 그릇이라고 생각 
할수 있다. 핵심부는 파일의 내용이 무엇인지는 신경쓰지 않는다. 많은 프로그람서고는 
마당 ( field ) 으로 이루어진 레코드 ( record ) 나 열쇠를 기초로 하여 레코드지정과 같은 높 
은 수준의 추상화를 실현한다. 그러나 이러한 서고에 있는 프로그람은 핵심부가 제공하 
는 체계호출을 사용하여야 한다. 사용자의 관점에서 보면 파일은 아래에서 보는것처럼 
나무형 태 의 이 름공간으로 조직되 여있다. 



그림 1-1. 리눅스파일체계의 나무구조 

나무에서 잎 ( leaf ) 을 제외한 모든 마디 ( node ) 는 등록부이름을 의미한다. 각 등록부 
마디는 바로 아래에 있는 등록부와 파일에 관한 정보를 포함하고있다. 과일이나 등록부 
명은 /과 빈 ( null ) 문자인 \0을 제외한 일련의 아스키 ( ASCII ) 문자이 다. 대체로 파일체 
계들에서는 파일명의 길이에 제한을 가지는데 보통은 255문자를 넘지 않는다. 나무의 
뿌리 에 해 당하는 등록부를《 뿌리 등록부 ( roo t directory ) 》라고 한다. 전통적 으로 뿌리 
등록부명은 빗선(八이다. 같은 등록부안에 있는 이름들은 서로 달라야 하지만 서로 다 
른 등록부에서는 같은 이름을 사용할수 있다. 

Linux 에서는 각 프로쎄스가 《 현재의 작업등록부 (current working 
directory ) 》와 련관된다. 이것은 프로쎄스의 실행결합부의 일부로서 프로쎄스가 현재 
사용하는 등록부를 가리킨다. 프로쎄스는 특정의 파일을 지정할 때 《경로명(빗선과 등 
록부명 이 엇바뀌면서 파일명을 지정한것)》을 사용한다. 경로명 이 빗선으로 시작하면 그 
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경로명은 시작지점 이 뿌리등록부이기때문에 《 절대 ( absolute ) 경로》라고 한다. 그렇지 
않고 등록부명 이나 파일명으로 시작하는 경우 그 경로명은 시작지점 이 프로쎄스의 현재 
등록부이 기 때 문에 《 상대 ( relative ) 경 로》라고 한다. 

파일명을 지정할 때 《 • 》과《••》을 사용하기도 하는데 각각 현재의 작업등록부 
와 그 부모등록부를 의미한다. 현재의 작업등록부가 뿌리등록부인 경우《 • 》과《••》 
은 꼭갈다. 

2) 하드련결과 쏘프트련결 

등록부에 있는 파일명을《파일하드련결 (file hard link )》, 더 간단히 줄여서 그 
냥 련결이라고 한다. 똑같은 파일에 대해 같은 등록부나 다른 등록부에서 여러개의 련결 
을 가짐으로써 한 파일 이 여 러 파일명을 가질수 있다. 

아래의 명령은 경로명 fl 이 나타내는 파일에 대해 f 2 이라고 하는 경로명으로 새로운 
하드련결을 만든다. 

$ In fl f 2 

하드련결에는 두가지 제한이 있다. 

우선 등록부에 대한 하드련결을 만들수 없는데 이것은 나무구조인 등록부계층구조를 
순환고리로 만들어 파일명으로 파일을 찾지 못하게 할수도 있다. 

다음으로 같은 파일체계 에 들어있는 파일사이 에서 만 하드련결을 만들수 있다. 이것 
은 최근의 Linux 체계는 서로 다른 디스크나 다른 구획에 위치하는 여러 파일체계를 소 
유할수 있고 사용자는 그것들이 물러적 으로 어 떻게 구분되 여있는지 모를수 있기때문에 
심 중한 문제 이 다. 

쏘프트련결 (soft link ) [기 호련결 (symbolic link ) 이 라고도 한다.]은 이 러한 제한을 
극복하기 위 해 도입된것 이 다. 기 호련결은 다른 파일의 경 로명 을 포함하는 작은 파일 이다. 
경로명은 아무 파일체계 에 들어있는 어떠한 파일이 라도 가러 킬수 있다. 지 어 실제로 존 
재 하지 않는 파일도 가리 킬수 있다. 

아래의 명령은 경로명 f 2 가 경로명 孔을 가리키도록 소프트련결을 만든다. 

$ In s fl f 2 

이 명 령을 실행하면 파일체계는 f 2 에 해 당하는 등록부에 f 2 로 지정한 이름으로 기호 
련결형태의 입구점을 새로 만들고 比의 경로명을 파일내용으로 포함하도록 한다. 이렇게 
하여 f 2 을 참조하면 자동으로 fl 을 참조하도록 한다. 

3) 파일형래 

파일에는 일반파일, 등록부，기호련결, 블로크장치에 해당한 장치파일，문자형장치 
에 해당한 장치파일, 관 ( pipe ) 과 이름있는 관 (named pipe , FIFO 라고도 한다.)，소케 
트라는 7가지 형태가 있다. 구체적인것은 앞으로 구체적으로 고찰한다. 

4) 파일서술자와 i 마디 

Linux 는 파일의 내용과 파일과 관련된 정보를 명확하게 구별한다. 장치파일과 특 
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수파일을 제외하고 각 파일은 일련의 문자로 이루어진다. 파일에는 파일의 길이나 파일 
의 끝 (EOF: End Of File) 을 나타내는 구분자와 같은 조종정보가 들어 있지 않다. 

파일체계가 파일을 다루는데 필요한 모든 정보는 《i 마디 (inode)》 라는 자료구조에 
들어있다. 각 파일은 자기만의 i 마디를 가지며 파일체계는 파일을 구별할 때 이 i 마디를 
사용한다. 파일체계와 파일체계를 다루는 핵심부함수는 Unix 체계마다 크게 차이가 있을 
수 있지만 적어도 POSIX 표준에서 규정하는 다음과 같은 속성을 항상 제공하여야 한다. 

> 파일형태 

> 과일과 련결된 하드련결의 개수 

> 바이트단위의 파일길이 

> 장치 ID (파일을 포함하고있는 장치의 식별자) 

> 파일체계 에 들어 있는 파일을 구별할수 있는 i 마디 번호 

> 파일을 소유하고있는 사용자의 ID 

> 파일의 그롭 ID 

> i 마디상태가 언제 바뀌였는지, 언제 마지막으로 접근했는지，언제 마지막으로 
수정했는지를 나타내는 여 러가지 시간기록 

> 접근권한과 파일방식 

5) 접근권한과 파일방식 

파일을 사용하는 사용자는 다음 세개의 부류로 구분할수 있다. 

> 파일을 소유하고있는 사용자 

> 소유자를 제외한 파일과 같은 그룹에 속한 사용자 

> 나머지사용자(그 밖의 사용자) 

이 세 가지 부류에 대 하여 각각 읽 기 (read) , 쓰기 (write) , 실 행 (execute) 이 라고 하 
는 세가지의 접근권한형태가 있다. 이 밖에 SUIDCSet User ID： 사용자 ID 설정)， 
SGID(Set Group ID： 그를 ID 설정), sticky 라는 세가지의 추가적인 기발이 파일방식을 
정의한다. 실행파일이 이 기발을 가지면 각각 다음과 같은 의미를 나타낸다. 

SUID- 어떤 파일을 실행하는 프로쎄스는 보통 프로쎄스소유자의 UID(User ID： 
사용자 ID) 을 가진다. 그러 나 SUID 기 발이 설정된 실행파일을 실행 하면 프로쎄 스는 파일 
소유자의 UID 를 가전다. 

SGID- 어떤 파일을 실행하는 프로쎄스는 프로쎄스그룹의 GID (그룹 ID, Group 
ID) 를 가진다. 그러나 SGID 기발이 설정된 실행파일을 실행하면 프로쎄스는 파일그룹의 
ID 를 가진다. 

Sticky- sticky 기발이 설정된 실행파일은 실행을 끝낸 후에도 프로그람을 기억기에 
유지 하도록 핵심부에 요청한다. 

프로쎄 스가 파일 을 생 성하면 파일 의 소유자 ID 는 해 당 프로쎄 스의 UID 가 된 다. 파 
일의 소유그롭 ID 는 부모등록부의 sgid 기발값에 따라 해당 파일을 생성한 프로쎄스의 
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GID 나 부모등록부의 GID 중 하나가 된다. 

6) 파일관련체계호출 

사용자가 일반 파일 이 나 등록부의 내용에 접근하면 실지로는 하드웨 어의 블로크장치 
에 보관되 여있는 자료에 접근하게 된다. 이 런 의 미 에서 파일체계 는 하드디스크구획의 물 
리적인 구조를 사용자관점에서 보는것이라고 할수 있다. 사용자방식에서 동작하는 프로 
쎄스는 저수준의 하드웨어구성요소와 직접 호상작용할수 없기때문에 실제의 파일을 다루 
는 작업은 핵심부방식에서 수행되여야 한다. 이때문에 Linux 조작체계에서는 파일조작 
과 관련된 여 러가지 체계호출을 정의하고있다. 

모든 Unix 핵 심부는 전반적 인 체 계성능을 향상시키 기 위 해 하드웨 어블로크장치를 
효률적으로 다루는데 초점을 두고있다. 이 조작들은 체계호출과 밀접한 관련를 가진다. 
泰 파일열기 

프로쎄 스는 《 열 린》파일에 만 접근할수 있다. 프로쎄 스는 다음과 같이 체계 호출을 
통하여 파일을 연다. 

fd = open (path, flag, mode); 

path 는 열려는 파일의 경로명 (상대적 혹은 절대적)을 나타낸다. 

flag 는 파일을 어떻게 열것인가를 나타낸다. 실례로 읽기，쓰기, 읽기/쓰기, 추가 
가 있다. 여기서 파일 이 실제로 존재하지 않는 경우 파일을 새 로 생성할것 인지도 지정 할 
수 있다. 

mode 는 새로 생성 할 파일 의 접 근권 한을 지정 한다. 

이 체계호출은 열린파일객체를 생성하고 파일서술자 (file descripter) 라고 하는 식 
별자를 돌려준다. 열린파일객체는 다음의 정보를 포함한다. 

> 파일자료를 복사할 핵심부완충기령역에 대한 지적자，파일에 대한 다음 연산을 
수행 할 파일에서 의 현재 위치를 나타내 는 offset 마당(파일지 적 자이 라고도 한다) 
같은 파일을 다루는 몇가지 자료구조 

> 프로쎄 스가 호출할수 있는 핵 심 부함수를 가리 키 는 몇 몇 지 적 자. flag 파라메 터 의 
값에 따라 사용이 허가된 함수의 목록이 달타진다. 

파일서술자는 프로쎄스와 열린 파일사이의 호상작용을 나타내는 반면에 열린파일객 
체는 이 호상작용과 관련된 자료를 포함한다. 동일한 프로쎄스내에서 여 러 파일서술자를 
통해 똑 같은 열 린파일객체를 식별할수도 있다. 

한편 여 러 프로쎄스가 동시 에 같은 파일을 열수도 있다. 이 경우에 파일체계는 각각 
별도의 파일서술자와 열린파일객체를 할당한다. 이 런 상태에서 여 러 프로쎄스가 같은 파 
일에 입출력을 요구하는 경우 Unix 파일체계는 그 사이에 어떠한 종류의 동기화도 제공 
하지 않는다. 그러나 프로쎄스 스스로 전체 파일이나 파일의 일부분을 동기화할수 있도 
록 flockO 을 비롯한 여러 체계호출을 제공한다. 

새 파일을 만들려고 한다면 createO 체계호출을 사용할수도 있다. 핵심부는 
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createO 체계호출을 openO 과 똑같이 관리한다. 

4- 열린파일에 접근하기 

일반 Unix 파일은 순차적으로 접근할수도 있고 임의의 위치를 지정하여 접근할수도 
있다. 반면에 장치 파일 이 나《 이 름있는 관 (named pipe) 》은 대 체 로 순차적 으로 접 근한 
다. 어떤식으로 접근하든 핵심부는 파일지적자를 열린파일객체에 보관한다. 

readO 와 writeO 체계호출은 항상 현재 파일지적자의 위치를 참조한다. 즉 기정적 
으로 순차적인 접근으로 생각한다. 이 값을 바꾸러면 프로그람은 lseekO 체계호출을 진 
행하여야 한다. 파일을 열 때 핵심부는 파일지적자를 파일의 첫번째 바이트위치로 설정 
한다. 

newoffset = lseek(fd, offset, whence) : 

매개 변수의 의미는 다음과 같다. 
fd - 열 린 파일의 파일서술자를 나타낸다. 

offset - 파일지적자의 새로운 위치를 계산하는데 시용하는 옹근수값(정수 혹은 부 
수)을 지정한다. 

whence - offset 값을 더하는 기준을 지정 한다. 이 값에 따라 기준이 0( 파일의 시 
작)이나 현재 파일지적자，마지막 바이트의 위치 (파일의 끝)가 된다. 

readO 체계호출의 매개 변수는 다음과 같다. 

nread = read(fd, buf, count); 

각 매개 변수의 의미는 다음과 갈다. 

fd - 열린 파일의 파일서술자를 나타낸다. 
buf - 프로쎄 스주소공간에 있는 자료를 전송할 완충기의 주소를 지정 한다. 
count - 읽 어들일 바이트수를 나타낸다. 이 체계호출을 밤으면 핵심부는 파일 
서술자 fd 가 가리키는 파일에서 열린 파일의 offset 마당값인 현재 위치부터 시작하여 
count 바이트만큼 읽 으러 고 한다. 파일의 끝에 도달하거 나 비 여있는 경우에는 count 
바이트만큼 읽지 못할수도 있다. 여기서 되돌리는 nread 값은 실제로 읽은 바이트수이 
다. 파일지적자는 이전값에 nread 를 더한 값으로 갱신된다. writeO 에 전달히는 매 
개 변수도 이와 비슷하다. 

4 - 파일닫기 

프로쎄스가 더는 파일내용에 접근할 필요가 없는 경우 다음의 체계호출을 리용하여 
파일을 닫을수 있다. 

res = close(fd) : 

이 체계호출은 파일서술자 fd 에 해당하는 열린 파일객체를 해제한다. 프로쎄스가 
완료할 때 핵심부는 해 당 프로쎄스가 열어놓은 모든 파일을 닫는다. 

A 파일명변경과 파일삭제 

파일명을 비꾸거나 파일을 지울 때에는 파일을 열 필요가 없다. 이런 작업은 대상파 
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일의 내용이 아닌 해당 등록부의 내용에 작용하기때문이다. 실례로 다음 체계호출은 파 
일련결의 이름을 바꾼다. 

res = rename (oldpath, newpath) : 

또한 다음의 체계호출은 파일의 련결개수를 줄이고 해당 등록부입구점을 제거한다. 
res = unlink (pathname) ; 

파일은 련결개수가 0이 되여야만 삭제된다. 

3. Linux 핵심부의 개요 

Linux 핵심부는 응용프로그람이 동작할수 있는 실행환경을 제공한다. 따라서 핵심 
부는 일부 봉사와 이에 해당하는 대면부를 실현해야 한다. 응용프로그람은 이려한 대면 
부를 사용하며 대체로 하드웨어자원과 직접 호상작용하지는 않는다. 

1) 프로쎄스와 핵심부모형 

CPU 는 사용자방식이나 핵심부방식중 어느 하나에서 동작한다. 그러나 실제로는 실 
행상태를 두개이상 지원하는 CPU 도 있다. 실례로 인텔 80x86 극소형처리소자는 서로 
다른 실행상태 4가지를 지원한다. 그러 나 모든 표준 Linux 핵심부는 핵심부방식과 사용 
자방식만 사용한다. 

사용자방식 에 서 동작중일 때 프로그람은 핵 심 부자료구조나 핵 심 부프로그람에 직 접 
접근할수 없다. 그러나 응용프로그람이 핵심부방식에서 동작중일 때에는 이러한 제한이 
더는 적용되지 않는다. 개개의 CPU 모형은 사용자방식에서 핵심부방식으로 절환하거나 
이와 반대로 절환하는 특별한 명령을 제공한다. 프로그람은 대부분의 시간을 사용자방식 
에서 보내고 핵심부가 제공하는 봉사를 리용할 때에만 핵심부방식으로 절환한다. 핵심부 
는 프로그람의 요구를 처 리한 후 프로그람을 다시 사용자방식으로 돌려보낸다. 프로쎄스 
는 체계에서 수명 이 제 한되 여있는 동적 인 개체 이다. 핵심부에 있는 여 러 루린 (routine) 
이 프로쎄스생성과 제거, 동기화하는 일을 한다. 

핵 심부는 프로쎄스가 아니 라 프로쎄스관리 자로 된다. 프로쎄 스/핵 심부모형 에서는 
프로쎄스가 핵심부봉사를 밤으려고 할 때 《체계호출 (system call) > 이라는 특별한 프 
로그람구조를 리용하도록 한다. 각 체계호출은 프로쎄스가 제기 하는 요청을 나타내는 매 
개 변수그룹을 설정한 후 사용자방식에서 핵심부방식으로 절환하는 하드웨어 고유의 
CPU 명령을 실행한다. 

Linux 체계에는 사용자프로쎄스외에 다음과 같은 특징을 가지는 《 핵심부스례드 
(kernel tiiread) 》라는 몇 가지 특권프로쎄 스가 있다. 

> 핵 심 부주소공간에 서 핵 심 부방식 으로 실 행 한다. 

> 사용자와 호상작용하지 않는다. 따라서 말단장치가 필요없다. 

> 일반적으로 체계를 시동할 때 만들어지고 체계가 끝날 때까지 살아있다. 

단일처 리장치체 계 에서는 한번에 단 하나의 프로쎄스만 실행할수 있다. 프로쎄스는 
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사용자방식 이 나 핵 심 부방식중 하나에 서 동작한다. 만약 핵 심 부방식 에 서 동작중이 라면 처 
리장치는 어떤 핵심부루린을 실행하고있을것 이 다. 그림 1-2 는 사용자방식과 핵심부방식 
사이 의 절환을 보여준다. 사용자방식 에 있는 프로쎄 스 1이 체 계호출을 진행 하면 프로쎄 
스를 핵심부방식으로 절환한 후 체계호출을 처리한다. 프로쎄스1은 사용자방식에서 실 
행 을 재 개 하고 시 계 새 치 기 (timer interrupt) 가 발생 하면 핵 심 부방식 에 서 순서 짜기 프로 
그람이 활성화된다. 다음 프로쎄스절환이 일어나 프로쎄스2가 사용자방식에서 실행을 
시작하며 하드웨어장치에서 새치기가 발생할 때까지 계속 실행한다. 새치기가 발생하면 
프로쎄스 2는 핵심부방식으로 절환하여 새치기를 처리한다. 



체 계 호출 시 계 새 치 기 장치 새 치 기 

그림 1-2. 사용자방식과 택심부방식사이의 전환 


Linux 핵심부는 체계호출외에도 많은 일을 수행한다. 사실 핵심부루린이 호출되는 
경우는 여 러가지 이 다. 

> 프로쎄스가 체계호출을 한 경우 

> 프로쎄 스를 실 행 하던 CPU 가《 례 외 (exception) > 를 발생 시 킨 경 우 

례외라는것은 잘못된 명령의 실행처럼 비정상적인 상태를 말한다. 핵심부는 례 
외가 발생한 프로쎄스를 대신하여 례외를 처리한다. 

> 주변장치 (peripheral device) 는 주목을 끌 필요가 있거 나 상래 변경 , 입출력동 
작완료 같은 사건을 알려주기 위해 CPU 에 《새 치기신호 (interrupt signal) > 
를 보낸 다. 각 새 치 기 신호는 《 새 치 기 처 리 기 (interrupt handler) ) 라는 핵 심 
부프로그람이 처리한다. 주변장치는 CPU 와 비동기적으로 동작하므로 새치기가 
언제 발생 할지는 예측할수 없다. 

> 핵심부스레드를 실행한 경우 

핵심부스레드는 핵심부방식에서 동작하므로 해당 프로그람은 핵심부의 일부로 
간주해야 한다. 

2) 프로쎄스실현 
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핵심부는 프로쎄스를 조종하기 위해서 매개 프로쎄스를 프로쎄스의 현재 상태정보를 
포함하는《 프로쎄 스서 술자 (process descriptor) 》로 나타낸다. 

핵심부는 프로쎄스의 실행을 중단할 때 다음과 갈은 처리장치등록기들의 현재 내용 
을 프로쎄스서술자에 보관한다. 

> 프로그람계수기 (PC: program counter) 와 탄창지시기 (SP: stack pointer) 
등록기 

> 일반 (general purpose) 등록기 

> 류동소수점 (floating point) 등록기 

> CPU 상태 정 보를 담고있는 처 리 장치 조종등록기: [처 리 장치 상태 단어 (Processor 
Status Word)] 

> 프로쎄 스가 접 근하는 주기 억 기 를 관리 하는데 사용하는 기 억 기 관리 등록기 

핵심부가 어떤 프로쎄스를 다시 실행하려고 한다면 적절한 프로쎄스서술자마당을 

CPU 등록기 로 읽 어들인다. 보존된 프로그람계수기의 값은 마지막에 실행한 명 령의 다음 
명 령 을 가리 키 므로 프로쎄 스는 이 전에 멈 춘 위 치 부터 실 행 을 재 개한다. 

프로쎄스가 CPU 에서 실행중이 아닐 때에는 어떤 사건이 일어나기를 기다린다. 
Linux 핵심부는 대기상태를 여러 가지로 구별하며 대체로 프로쎄스서술자대기렬 
(queue) 을 리 용하여 이것 을 구현한다. 각 대 기렬은(대 기렬은 비 여있을수도 있다.) 특 
별한 사건을 기 다리는 프로쎄스의 집합이 다. 

3) 재진입가능한 핵심부 

Linux 핵 심부는 《 재 진입 (reentrant) 》가능하다. 이 말은 여 러 프로쎄스를 동시 에 
핵심부방식 에서 실행할수 있다는것을 의미한다. 물론 단일처 리 장치체계 에서는 한 프로쎄 
스만 작업 을 진행할수 있지 만 여 러 프로쎄 스가 CPU 나 어 떤 입 출력 작업 이 완료되 기 를 
기다리며 핵심부방식에서 차단된 상태로 있을수 있다. 실례로 어떤 프로쎄스의 요구에 
따라 디 스크를 읽 으라는 요청 을 하면 핵 심부는 디 스크조종기 (disk controller) 에 이것 
을 처리하도록 지시한 후 다른 프로쎄스를 실행한다. 장치가 새치기를 발생시켜 핵심부 
에 읽기작업 이 끝났다고 알려주면 이전 프로쎄스는 실행을 재개할수 있게 된다. 

재진입을 가능하게 하는 방법 중 하나는 국부변수만 수정하고 대역자료구조는 수정 
하지 않도록 함수를 작성하는것이다. 이런 함수를 재진입가능한 함수 (reentrant 
function) 라고 한다. 그러나 이런 재진입가능한 함수만으로 재진입가능한 핵심부를 구 
성할수 있는것은 아니다. (실제로 일부 실시간핵심부는 이렇게 구현되여있다.) 대신 핵심 
부가 재진입할수 없는 함수를 포함하여 어떤 시점 에서 오직 한 프로쎄스만 재진입 할수 
없는 함수를 실 행 하도록 하기 위 해 잠그기 (locking) 기 구를 리 용한다. 모든 프로쎄 스는 
핵심부방식에서도 자기에게 할당된 기억기에서만 동작하며 다른 프로쎄스의 기억기를 간 
섭할수 없다. 

하드웨어새치기가 발생하면 재진입가능한 핵심부는 현재 실행중인 프로쎄스가 비록 
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핵심부방식에 있더라도 현재프로쎄스를 잠시 보류할수 있다. 이 기능은 새치기를 발생시 
키는 장치조종기의 작업처리량을 증가시키기때문에 매우 중요하다. 장치는 새치기를 발생 
시 킨 후 CPU 가 이것을 인식할 때까지 기 다린다. 이때 핵심부가 새 치기 에 빠르게 응답한 
다면 장치조종기는 CPU 가 새치기를 처리하는 동안 다른 작업을 수행할수 있을것이다. 

이제 핵심부재진입과 이것이 핵심부구조에 미치는 영향을 살펴보자.《핵심부조종경 
로 (kernel control pa1±L) 》는 체계호출이나 례외，새치기를 처 리하면서 핵심부가 실행 
해 나가는 명령의 순서를 말한다. 

가장 간단한 경우 CPU 는 처음 명령부터 마지막 명 령까지 순차적으로 핵심부조종경 
로를 실행 한다. 그렇지만 다음의 사건가운데서 하나라도 발생 하면 CPU 는 핵심부조종경 
로중간에 다른 핵심부조종경로를 끼워넣는다. 

> 사용자방식에서 실행중인 프로쎄스가 체계호출을 했는데 해당 핵심부조종경로에 
서 프로쎄스가 요청한 작업을 바로 처 리할수 없을수도 있다. 이때 핵심부는 순 
서짜기프로그람을 실행 하여 새릅게 실행할 프로쎄스를 선택 하며 그 결과 프로쎄 
스절환이 일어난다. 이때 첫번째 핵심부조종경로는 끌나지 않은 상태로 남고 
CPU 는 다른 핵심부조종경로를 실행 한다. 이 경우 두 조종경로는 서로 다른 두 
프로쎄 스를 대 신하여 실행된다. 핵 심부조종경 로를 실행하던중에 CPU 가 례외를 
일으킬 때, 실례로 주기억기에 존재하지 않는 폐지에 접근하려고 한 경우 이때 
첫 번째 조종경 로를 잠시 보류하고 CPU 는 례 외 를 처 리 하기 위해 적 절 한 작업 을 
수행한다. 이를테 면 프로쎄스용으로 새 폐지를 할당하고 디스크에서 내 용을 읽 
어들여 례외를 처리한다고 하자. 이 작업이 끝나면 첫번째 조종경로는 작업을 
재개할수 있다. 이 경우 두 핵심부조종경로는 똑같은 프로쎄스를 대신하여 실행 
된 다. 

> 새치기를 허용한 상태에서 CPU 가 핵심부조종경로를 실행하고있을 때 하드웨 
어새 치기가 발생한 경우. 첫번째 핵심부조종경로가 완료하지 않은 상태 에서 
CPU 는 새치기를 처리하기 위해 또 다른 핵심부조종경로를 시작한다. 새치기처 
리기가 완료하면 첫번째 핵심부조종경로는 작업을 재개한다. 이 경우 두 핵심부 
조종경로는 같은 프로쎄스의 실행결합부에서 실행되며 이 과정에서 소비된 체계 
서긴은 이 프로쎄스가 시용한것으로 계산된다. 그러나 새치기처리기가 해당 프 
로쎄스를 위해 통작할 펼요는 없다. 

그림 1-3 는 핵 심 부조종경 로를 처 리하는 도중 다른 조종경 로가 끼 여 들지 않을 때 와 
끼여들 때 모두를 그림으로 보여준다. 그림에서는 세가지 CPU 상태가 있다. 

> 사용자방식 에 서 프로쎄 스 실 행 하기 (사용자) 

> 례 외 나 체 계 호출운전기 실 행 하기 (례 외 ) 

> 새 치기처리기 실행하기(새 치기) 
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그림 1-3. 핵심부조종의 접침 


4) 프로쎄스주소공간 

각 프로쎄스는 자기의 개인주소공간 (private address space) 에서 실행된다. 사용자 
방식에서 실행하는 프로쎄스는 자기의 탄창，자료 그리고 코드령역을 사용한다. 한편 핵 
심부방식에서 실행할 때에는 핵심부자료와 코드령역에 접근하고 별도의 탄창을 사용한다. 

핵심부는 재진입이 가능하므로 여러 핵심부조종경로(각각 서로 다른 프로쎄스와 련 
관되여있다.)가 차례로 실행될수 있다. 이 경우 각 핵심부조종경로는 자기의 핵심부탄창 
을 사용한다. 

각 프로쎄스가 개 인주소공간에 접근하는것처럼 보이지만 주소공간의 일부를 프로쎄 
스사이 에서 공유하는 경우도 있다. 프로쎄스가 직접 주소공간을 공유할것을 요구하는 경 
우도 있고 핵심부가 기억기사용량을 줄이려고 자동으로 공유하게 만들기도 한다. 

똑같은 프로그람，실례로 편집기를 여러 사용자가 동시에 사용하면 프로그람은 기억 
기에 한번만 적재되고 이것을 사용하는 모든 시용자가 명령을 공유한다. 물론 각 사용자 
마다 서로 다른 자료가 있으므로 자료를 공유하면 안된다. 핵심부는 기억기를 아끼려고 
이렇게 자동으로 주소공간을 공유하게 한다. 

또한 프로쎄스는 프로쎄스사이통신기구의 한 종류로서 SystemV 에서 도입하고 
Linux 가 지원 하는《공유기 억 기 (shared memory)》 기법을 통하여 자신의 주소공간의 
일부를 공유할수 있다. 

마지막으로 Linux 는 nunapO 체계호출을 지원한다. 이 체계호출은 파일이나 장치에 
있는 기억기의 일부를 프로쎄스주소공간의 일부로 배치한다. 기억기배치는 자료를 전송 
하는 일반적인 방법인 읽기와 쓰기에 대한 대안으로 된다. 똑같은 파일을 여러 프로쎄스 
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가 공유하면 이것을 공유하는 각 프로쎄스의 주소공간에 해당 파일의 기억기배치가 들어 
간다. 

5) 동기화와 림계령역 

재 진입 가능한 핵 심 부를 실현하려 면 동기 화 (synchron 뇨 ation) 를 리 용해 야 한다. 
핵심부조종경로가 어떤 핵심부자료구조를 가지고 작업하던 도중에 멈춘 경우 이 자료구 
조가 옳바른 상태로 다시 설정되지 않는한 다른 핵심부조종경로가 똑같은 자료구조를 사 
용할수 없게 해야 한다. 그렇지 않으면 두 조종경로의 호상작용으로 인해 자료구조에 보 
관된 정보가 엉망이 될수도 있다. 

실례를 들어 어떤 체계자원을 사용할수 있는 개수를 나타내는 대역변수 v 가 있다고 
하자. 첫번째 핵심부조종경로 A 가 이 값을 읽고 사용가능한 항목이 단 하나인것을 알아 
낸다. 이 시점에서 다른 핵심부조종경로 묘가 활성화되여 똑같은 변수를 읽으면 여전히 
값은 1일것 이 다. 그래서 묘가 v 를 감소시키고 자원을 사용하기 시 작한다고 하자. 그리고 
나서 A 가 실행을 재개하면 A 는 이미 v 의 값을 읽었으므로 v 값을 감소시키고 자원을 
사용할수 있다고 여기는데 이미 묘가 해당 자원을 사용하는 중이다. 최종결과로 v 는 -1 
이 되고 두 핵심부조종경로는 똑갈은 자원을 사용하게 되여 잠재적으로 심각한 결과를 
초래할수도 있다. 

둘이상의 프로쎄스를 어떻게 순서짜기하는가에 따라 계산결과가 달라질수 있다면 해 
당 코드는 질못된것이다. 이 경우 이 코드에 《경쟁조건 (race condition) 》이 있다고 
한다. 

일반적으로《원자적 인 연산 (atomic operation)》 을 리 용하면 대역 변수에 안전하게 
접근할수 있다. 앞의 실례에서 두 조종경로가 중단할수 없는 단일연산을 사용하여 v 값 
을 읽고 감소시킨다면 자료가 잘못되는 일은 발생하지 않을것이다. 그러나 핵심부에는 
이런 단일연산으로 다룰수 없는 많은 자료구조가 있다. 실례를 들어 련결목록에 있는 항 
목을 제거하는 경우 적어도 두개의 지적자에 동시에 접근해야 하므로 단일연산으로 이것 
을 수행할수 없다. 어떤 코트령역이든 일단 시작했다면 다른 프로쎄스가 해당령역에 진 
입 하기 전에 끝내 야만 하는 령 역을《 림계 령 역 (critical region) 》이 라고 한다. 

이 런 문제 는 핵 심 부조종경 로사이 에 서 뿐만 아니 라 자료를 공유하는 프로쎄 스사이 에 서 
도 일어난다. 이것을 해결하기 위해 몇가지 동기화기법을 받아들였는데 앞으로 나가면서 
보기로 한다. 

6) 비선취형핵심부 

대부분의 고전 Unix 는 핵심부를 비선취형 (nonpreemptive) 으로 만들어 동기화문제 
를 아주 간단히 해결하였다. 비선취형핵심부에서는 프로쎄스가 핵심부방식에서 실행 중이 
면 이것을 임의로 보류하거나 다른 프로쎄스로 교체할수 없다. 따라서 단일처리장치체계 
에서 핵심부는 새치기처리기나 례외처리기에서 갱신하지 않는 모든 핵심부자료구조에 안 
전하게 접근할수 있다. 
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물론 핵심부방식에 있는 프로쎄스가 자발적으로 CPU 를 반납할수 있는데 이 경우 
CPU 를 반납하기 전에 모든 자료구조가 온전한 상태에 있도록 해야 한다. 게다가 프로 
쎄스는 실행을 재개할 때 이전에 접근한 자료구조가 바뀌였을수도 있으므로 다시 검사해 
야 한다. 다중처리장치체계에서는 서로 다른 CPU 에서 실행되는 두 핵심부조종경로가 
동시 에 똑같은 자료구조에 접 근할수도 있다. 따라서 다중처 리장치체계 에서는 비선취성 이 
효률적인것이 못된다. 

7) 새치기금지 

단일 처 리 장치 체 계 를 위 한 다른 동기 화기 구로서 림 계 령 역 에 들어 가기 직 전에 모든 하 
드웨 어새 치기를 금지하고 림계 령역을 빠져나오는 즉시 다시 허용하는 방법 이 있다. 이 
기구는 간단하지만 최적의 방법은 아니다. 림계령역이 크면 새치기는 상대적으로 긴 시 
간동안 금지된 상태로 남아있어 자칫하면 모든 하드웨어의 동작을 멈추게 할수 있기때문 
이다. 더구나 다중처리장치체계에서는 이런 기구가 전혀 동작하지 않는다. 다중처리장치 
체계 에서는 림계 령역에서 사용하는 똑같은 자료구조를 다른 CPU 에서 접근하지 못하도 
록 할수 있는 방법이 없다. 

8) 신호기 

단일 처 리 장치 체 계 와 다중처 리 장치 체 계 에서 는 다같이 《 신호기 (semaphore) 》라고 
하는 효률적인 기구를 많이 사용하고있다. 신호기는 어떤 자료구조와 련관된 간단한 계 
수기이 며 모든 핵 심 부스레 드는 자료구조에 접 근하기 전에 해 당 신호기 를 검 사한다. 각 
신호기는 다음과 같은 항목으로 구성된 객체이다. 

> 옹근수변수 

> 대기하는 프로쎄스목록 

> 두개의 원자적 인 메쏘드 (method): down 0 과 up () 

downO 메쏘드는 신호기의 값을 감소시킨다. 결과 값이 0보다 작으면 이 메쏘드는 
프로쎄 스를 신호기 목록에 추가하고 차단한다. (즉 순서짜기 프로그람을 호출한다. ) up() 
메쏘드는 신호기의 값을 증가시키고 결과값이 0보다 작거나 갈으면 신호기목록에 있는 
하나이상의 프로쎄스를 다시 활성화한다. 

보호를 받는 각 자료구조는 자기의 신호기를 가지며 초기값은 1이다. 핵심부조종경 
로가 자료구조에 접근하려고 할 때에는 먼저 해당 신호기에 downO 메쏘드를 실행한다. 
새로운 신호기의 값이 부수가 아니면 해당 자료구조에 접근할수 있고 그렇지 않으면 핵 
심부조종경 로를 실행 하던 프로쎄 스를 신호기목록에 추가하고 차단한다. 다른 프로쎄 스가 
이 신호기에 up() 메쏘드를 실행하면 신호기목록에 있는 프로쎄스중 하나는 작업을 계 
속할수 있다. 

9) 스핀잠그기 

다중처리소자체계에서는 신호기가 동기화문제를 해결하는 가장 좋은 방법은 아니다. 
어떤 핵심부자료구조는 서로 다른 CPU 에서 동작하는 핵심부조종경로가 동시에 접근하 
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지 못하게 해야 한다. 이때 자료구조를 갱신하는데 필요한 시간이 짧으면 신호기는 매우 
효률이 떨어진다. 신호기를 검사하여 신호기가 사용중이면 핵심부는 프로쎄스를 신호기 
목록에 삽입한 후에 프로쎄스를 보류시켜 야 한다. 이 두 작업은 상대적으로 비용(즉 시 
간)이 많이 들기때문에 작업을 마쳤을 때 다른 조종경로에서 이미 해당 신호기를 반납했 
을수도 있다. 

이런 경우 다중처리장치조작체계는《스핀잠그기 (spin lock )》 를 리용한다. 스핀잠 
그기는 신호기와 매우 류사하지만 프로쎄스목록이 크다는 점 이 다르다. 프로쎄스가 시용 
하려는 잠그기를 다른 프로쎄스가 이미 사용하고있다면 프로쎄스는 잠그기가 풀릴 때까지 
반복해 서 명 령 을 실 행 하며 《 회 전 ( spin ) 》한다. 단일 처 리 장치 환경 에 서 는 스핀 잠그기 가 
필요없다. 단일처 리장치환경 에서는 핵심부조종경 로가 잠겨 있는 자료구조에 접근하려 고 하 
면 무한순환을 시작하기때문에 해당 자료구조를 보호하며 갱신하던 핵심부조종경로는 실 
행을 계속할수도 없고 스핀잠그기를 반납할수도 없다. 그 결과 체계가 죽게 된다. 

10) 교착회피 

다른 조종경 로와 동기 화해 야 하는 프로쎄 스나 핵 심 부조종경 로는 쉽 게 《 교착 (deadl 
ock )》 상태 에 빠져들수 있다. 교착이 발생 하는 가장 단순한 경우는 프로쎄스 pi 이 자료 
구조 a 에 대한 접근권한을 가지고있고 프로쎄스 p 2 가 건에 대한 접근권한을 기지고있는 
데 pi 이 b 를 기다리고 p 2 가 a 를 기다릴 때 이다. 여러 프로쎄스그룹사이에서 더 복잡한 
순환대기가 발생할수도 있다. 응당 교착상태는 이에 영향을 받는 프로쎄스와 핵심부조 
종경로를 완전히 정지시키는 결과를 가져온다. 

핵심부설계관점 에서 보면 교착은 사용하는 핵심부신호기의 수가 많을 때 문제가 된 
다. 이런 경우 핵심부조종경로중간에 삽입되는 모든 경우에 교착상태가 절대로 일어나지 
않도록 하기는 매우 어렵다. Linux 를 포함한 여러 조작체계는 제한된 수의 신호기를 
사용하며 신호기 에 대 한 요청 을 오름순서 (ascending order ) 로 정 렬 하여 이 문제 를 피 
한다. 앞의 실례에서 두 프로쎄스가 신호기에 대한 요청을 a , b 순서로 하기로 약속한 
다면 서로 상대 방이 신호기를 풀어주기를 기 다리는 일은 발생하지 않는다. 

11) 신호와 프로쎄스사이통신 

Linux 《 신호 ( signal ) 》는 프로쎄스에 체계사건을 알려 주는 기 구를 제공한다. 각 
사건은 SIGTERM 과 같이 기호로 된 상수로서 참조하는 자체의 신호번호를 가지고있다. 
체 계사건에는 두 종류가 있다. 

비동기 적 알림 (asynchronous notification ) 

실례로 사용자가 말단에서 새치기건을 눌러서(보통은 Ctrl + C ) 전경프로쎄스 
(foreground process ) 에 SIGINT 새치기신호를 보낼수 있다. 

동기 적 오유 (synchronous error ) 와 례 외 ( exception ) 

실례로 프로쎄스가 잘못된 주소에 있는 기억위치에 접근하려고 하면 핵심부는 프로 
쎄스에 SIGSEGV 신호를 보낸다. POSIX 표준에서는 대략 20개의 신호를 정의하고있다. 
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그 가운데서 2개는 사용자가 정의할수 있으며 사용자방식 에 있는 프로쎄스사이에서 통 
신과 동기 화를 하기 위한 원시 적 인 기 구로서 이 신호를 리용할수 있 다. 프로쎄 스는 신호 
를 받을 때 보통 다음 두가지 반응을 보인다. 

> 신호를 무시한다. 

> 비동기적으로 특별한 절차(신호취급기)를 실행한다. 

> 프로쎄스가 그중 하나를 지정하지 않으면 핵심부는 신호번호에 따라 정해진 기 
정동작 (default action ) 을 수행 한다. 기본동작은 다음 다섯가지 이 다. 

> 프로쎄스를 완료한다. 

> 실행결합부와 주소공간의 내용을 파일에 기록하고(핵심정보 (core dump )) 프로 
쎄스를 완료한다. 

> 신호를 무시한다. 

> 프로쎄스를 보류한다. 

> 프로쎄 스가 중단된 상태 라면 프로쎄 스실 행 을 재 개 한다. 

POSIX 에서는 프로쎄스가 일시적으로 신호를 차단할수 있도록 규정하기때문에 핵심 
부에서 신호처리는 어느 정도 복잡하다. 더구나 SIGKILL 과 SIGSTOP 신호는 프로쎄스 
가 직 접 처 리할수 없 으며 무시할수도 없 다. 

AT & T 의 UNIX System V 는 사용자방식에서 사용할수 있는 다른 종류의 프로쎄스사 
이통신 (interprocess communication ) 방법을 도입했으며 여러 Unix 핵심부에서 이것을 
도입하였다. 이러한 신호기 ( semaphore ), 통보문대기렬 (message queue ) , 공유기억기 
(sMred memory ) 를 한데 묶어서 System V IPC 라고 한다. 핵심부는 이것을 《 IPC 자 
원》을 통해 실현한다. 프로쎄스는 shmgetO , semgetO , msggetO 체계호출을 통하여 
자원을 획득한다. 파일과 마찬가지로 IPC 자원도 기억기에 계속 존재하므로 이것을 만든 
프로쎄스나 현재 소유자, 관리자프로쎄스에서 명백하게 할당을 해제해야 한다. 

신호기는 앞에서의 《동기화와 림계령역》에서 설명한 신호기와 비숫하지만 사용자 
방식프로쎄 스를 위 한것 이 라는 점 이 다르다. 통보문대 기 렬은 프로쎄 스가 msgsndO , ms 
ggetO 체계호출을 리용하여 통보문을 교환할수 있게 한다. 이 함수들은 각각 지정된 통 
보문대기렬에 통보문을 넣고 뽑아낸다. 

공유기억기는 프로쎄스사이에서 자료를 교환하고 공유하는 가장 빠른 방법이다. 프 
로쎄스는 shmgetO 체계호출을 통하여 필요한 크기만큼 공유기억기를 생성한다. IPO } 
원 ID 를 엄으면 프로쎄스는 shmatO 체계호출을 통하여 자기의 주소공간에 있는 새로운 
령역의 시작주소를 엄는다. 프로쎄스가 공유기억기를 자기의 주소공간에서 떼여낼 때에 
는 shmdtO 체계 호출을 진행 한다. 공유기 억기실현은 핵심부가 프로쎄스주소공간을 어떻 
게 실현하는가에 따라 달라진다. 

12) 프로쎄스관리 

Linux 는 프로쎄스와 프로쎄스가 실행하는 프로그람을 명확히 구별한다. 그렇기때 
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문에 새로운 프로쎄스를 생성하고 완료하는데는 각각 forkO 와 _ exit () 체계호출을 사 
용하는 반면에 새로운 프로그람을 적재하는데는 execO 계렬의 체계호출을 사용한다. 
execO 계렬의 체계호출을 실행하면 프로쎄스는 적재한 프로그람을 포함한 새로운 주소 
공간에서 실행을 재개한다. forkO 를 호출하는 프로쎄스는《 부모 ( parent ) 》，새로운 
프로쎄스는《자식 ( child )》 이 된다. 프로쎄스를 서술하는 자료구조에는 친부모와 모든 
친 자식 을 가리 키는 지적 자가 들어 있 으므로 부모와 자식 은 서 로를 알수 있 다. 

forkO 함수를 단순하게 실현하려면 부모의 코드와 자료를 자식에게 그대로 복제해 
주면 된다. 그러나 이 방법은 시간이 많이 걸린다. 그래서 최신핵심부들은 하드웨어의 
페지화장치 (paging unit ) 기능을 활용하여 《쓰기복사 (Copy on Write ) 》한다. 이것은 
폐지복제를 최후순간(즉 부모나 자식이 페지에 쓰러고 할 때)까지 머루는것 이다. 

_ exit () 체계호출은 프로쎄스를 완료한다. 핵심부는 프로쎄스가 점유하고있는 자원을 
반납하고 부모프로쎄스에 SIGCHLD 신호를 보내는데 대체로 부모는 이 신호를 무시한다. 

13) 좀비프로쎄스 

그럼 부모프로쎄스는 자식프로쎄스가 완료했는지 어떻게 알수 있겠는가? 부모프로 
쎄스는 waitO 체계호출을 통하여 자식프로쎄스가운데서 하나가 완료할 때까지 기다릴수 
있다. 이 체계호출은 완료한 자식의 PID(Process ID ) 를 돌려준다. 

이 체계호출을 진행하면 핵심부는 이미 완료한 자식이 있는지 검사한다. 여기서 완 
료한 프로쎄 스를 나타내는《 좀비 프로쎄 스 (zombie process ) 》상태 라는 독특한 상태 가 
등장한다. 완료한 프로쎄스는 부모프로쎄스가 자기에게 waitO 체계호출을 진행하기 전 
까지 이 상태로 남는다. 이 체계호출운전기는 프로쎄스서술자 ( descriptor ) 에서 자원사 
용에 관한 자료를 추출하는데 이 자료를 얻어온 후에야 프로쎄스서술자를 해제할수 있다. 
waitO 체 계 호출을 진행할 때 그전에 완료한 자식 프로쎄스가 없으면 핵심부는 보통 자식 
프로쎄스가 완료할 때까지 프로쎄스를 대기상태로 만든다. 

많은 핵심부가 waitpidO 체계호출도 실현하고있다. 이 체계호출은 특정한 자식프로 
쎄스가 완료할 때까지 기다리게 한다. 이 밖에도 다른 waitO 계렬의 체계호출도 있다. 
부모프로쎄스가 waitO 체계호출을 진행할 때까지 자식프로쎄스의 정보를 그대로 가지고 
있는것은 좋지만 만약 부모프로쎄스가 이 체계호출을 진행하지 않고 완료했다면 어떻게 
될것인가? 실행을 마친 자식프로쎄스의 정보는 살아있는 다른 프로쎄스가 사용할수도 
있는 유용한 기 억기를 그대로 점유할것 이 다. 실례 로 많은 월 ( shell ) 들이 사용자가 명 령 
을 배 경 ( background ) 작업 으로 실행 한 다음 가입 랄퍼 (log out ) 하는것을 허 용한다. 이 
때 명령을 실행한 월은 완료하지만 자식프로쎄스는 실행을 계속한다. 

이 런 상태는 체계초기화과정 에 만드는 init 이 라는 특별한 체 계프로쎄스로 해결한다. 
프로쎄 스가 완료하면 핵 심 부는 해 당 프로쎄 스의 모든 자식 프로쎄 스의 프로쎄 스서 술자에 
있는 지적자를 바꿔서 이것들을 init 프로쎄스의 자식으로 만든다. init 프로쎄스는 모든 
자식의 실행상태를 지켜보고 정기적으로 waitO 체계호출을 진행한다. 이것은 모든 좀비 
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프로쎄 스를 제 거할수 있게 한다. 

14) 프로쎄스그룹과 가입세션 

최근의 Unix 조작체계는 작업 ( job ) 이라고 하는 추상적 인 개념을 나타내기 위해 
《프로쎄스그룹 (process group ) > 이라는 개념을 도입한다. 실례로 다음과 같은 명령을 
실행하면 배시 ( bash ) 와 같이 프로쎄스그룹을 지원하는 월은 Is , sort , more 3개의 프 
로쎄스를 위해 새로운 프로쎄스그룹을 생성 한다. 

$ Is | sort | more 

이렇게 해서 월은 3개의 프로쎄스가 마치 하나(정확히 말하면 한 작업)인것처럼 여 
기게 한다. 각 프로쎄스서술자에는 프로쎄스그룹 1 D 마당이 있다. 각 프로쎄스그룹에는 
그롭우두머 리 (group leader ) 가 있을수 있는데 그를우두머 리 란 PID 가 프로쎄 스그룹 ID 
와 일치 하는 프로쎄스를 말한다. 새로 만들어 진 프로쎄스는 처음에 부모의 프로쎄스그롭 
으로 들어간다. 최근의 Unix 핵심부는《가입세션 (login session ) 》이라는 개념도 새로 
도입하였다. 비공식적으로 가입세션은 특정말단에서 작업세션 (working session ) 을 시 
작한 프로쎄스(보통은 사용자를 위해 만들어진 첫번째 명 령 월프로쎄스)의 모든 자식프 
로쎄스를 포함한다. 같은 프로쎄스그룹에 있는 모든 프로쎄스는 동일한 가입세션에 있어 
야 한다. 가입세션에서는 여러 프로쎄스그룹이 동시에 활동하고있을수 있다. 이 프로쎄 
스그룹가운데서 하나는 항상 전경에 있으며 말단에 접근할수 있다. 다른 활동중인 프로 
쎄스그롭은 배경에 있다. 배경프로쎄스가 말단에 접근하려고 하면 해당 프로쎄스는 
SIGTTIN 이나 SIGTTOUT 신호를 받는다. 많은 명령월에서 내부명령 bg 와 fg 를 리용 
해 서 프로쎄 스그룹을 배경 이나 전경에 둘수 있다. 

15) 기억기관리 

기 억기관리는 Linux 핵심부에서 가장 복잡하게 동작하는 부분이 다. 

모든 최 신 Unix 체 계 는《 가상기 억 기 (virtual memory ) 》라는 추상화개 념 을 제 공하 
고있다. 가상기 억기는 응용프로그람에 서 요구하는 기 억기와 하드웨 어기 억관리장치 
( MMU , Memory Management Unit ) 사이에서 론러적 인 계층처 럼 동작한다. 가상기 
억기를 사용하면 여 러 측면에서 우점 이 있다. 

> 여 러 프로쎄 스를 동시 에 실 행할수 있 다. 

> 사용할수 있는 물리기억기보다 많은 기 억기를 요구하는 응용프로그람을 실행 할 
수 있다. 

> 프로그람코드가운데서 일부만 기 억기 에 적재 해도 프로쎄스를 실행할수 있다. 

> 각 프로쎄 스는 사용가능한 물리 기 억 기 의 일부에 만 접 근할수 있 다. 

> 서고나 프로그람의 기억기영상 하나를 프로쎄스사이에서 공유할수 있다. 

> 프로그람을 재 배 치 ( relocation ) 할수 있 다. 즉 물리 기 억 기 어 디 에 나 둘수 있 다. 

> 프로그람작성자는 물러기억기의 구조에 신경쓸 필요가 없으므로 기계에 의존하 
지 않는 코드를 작성할수 있다. 
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가상기 억 기 보조체 계 (subsystem) 의 핵 심 적 인 개 념 은 가상주소공간 (virtual 
address space) 이다. 프로쎄스가 참조할수 있는 기억기주소의 집합은 물리기억기주소 
와 다르다. 프로쎄스가 가상주소를 사용하면 핵심부와 MMU 가 서로 협력하여 요구한 
기억주소의 실제의 물리적인 위치를 찾는다. 오늘날의 CPU 에는 자동으로 가상주소를 
물리주소로 변환하는 하드웨어회로가 있다. 이에 따라 사용가능한 기억기를 4kB 나 8kB 
단위의 페지틀 (page frame) 로 쪼개고 폐지표 (page table) 를 통해 가상주소와 물러주 
소사이의 대응관계를 지정한다. 이 회로를 사용하면 련속된 가상주소의 기억기를 할당해 
달라는 요청을 물러주소가 련속되지 않는 패지틀그룹을 할당하여 처 리할수 있어 기 억기 
할당이 간단해진다. 

4 기억기사용 

모든 Unix 조작체 계 는 주기억 기 (RAM, Random Access Memory) 를 두개 의 부분 
으로 나누어 구분한다. 몇 Mbyte 는 핵심부영상(즉 핵심부코드와 핵심부의 정적자료구 
조)을 보관하는데 사용한다. 나머지는 보통 가상기억체계가 관리하는 부분으로서 다음의 
세가지 목적으로 사용한다. 

> 핵심부에서 요구되는 완충기 (bu 打 er) 와 서술자 (descriptor), 기 타 동적으로 만 
들어 지 는 핵 심 부자료구조용으로 쓰인 다. 

> 프로쎄스에게 필요한 일반적인 기억기령역과 파일을 기억기에 배치하는데 쓰인다. 

> 디스크나 완충기를 비롯하여 다른 장치로부터 더 좋은 성능을 얻기 위 한 완충기 
억기로 쓰인다. 

각이한 형태의 기억기요구에 대하여 사용할수 있는 기억기는 제한되여있기때문에 이 
러한 요구사이에 균형을 맞추어야 한다. 이것은 특히 사용가능한 기억기가 거의 남아있 
지 않을 때 더욱 중요하게 제기된다. 사용가능한 기억기가 림계값에 이르면 여분의 기억 
기를 추가로 만들기 위해 폐지틀을 해 방하는 알고리듬을 호출한다. 이때 과연 어떤 폐지 
틀을 해방하는것이 가장 적합하겠는가? 이 질문에는 간단히 대답할수 없으며 리론적으 
로도 내용이 심오하다. 유일한 방법은 경험적으로 알고리듬을 조정해나가며 조심스럽게 
개 발하는것 이 다. 

가상기억체계가 반드시 해결하고 넘어가야 하는 중요한 문제들가운데서 하나는《기 
억기조각화 (memory fragmentation) ) 이 다. 리론적 으로는 사용할수 있는 페지 틀의 수 
가 너무 적을 때에만 기억기요구가 실패한다. 그러나 핵심부는 때때로 물리적으로 련속 
인 기억령역을 사용해야만 하는 경우가 있다. 따라서 사용할수 있는 기억기는 충분하지 
만 련속된 블로크로 사용할수 있는 기억기의 크기가 작을 때에는 요청이 실패할수 있다. 

4 핵심부기억기할당자 

《 핵심부기억기할당자 (KMA, Kernel Memory Allocator) 》는 체계의 모든 부분 
의 기억기령역관련요청을 처리하는 보조체계 이다. 이 요청중 일부는 핵심부에서 사용할 
기억기를 필요로 하는 다른 핵심부보조체계에서 오고 일부는 사용자프로그람이 자기의 
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프로쎄스주소공간을 늘이기 위해서 체계호출을 통해 오기도 한다. 좋은 핵심부기억기할 
당자는 다음과 갈은 특징을 가지 고있어 야 한다. 

> 핵심부기억기할당자는 빨라야 한다. 실제로 모든 핵심부보조체계에서 (새치기처 
리기를 포함하여) 기억기를 요청하기때문에 이 점은 가장 중요하다. 

> 랑비되는 기억기의 량을 최소로 하여야 한다. 

> 기억기조각화를 될수록 줄여야 한다. 

> 다른 기억기관리보조체계와 협력하여 그들의 기억기를 빌려오거나 그들이 가지 
고있는 기 억기를 해방할수 있어 야 한다. 

지 금까지 제 안된 기 본적 인 핵 심 부기 억 기 할당자의 알고리 듬기 법 들을 보면 다음과 같다. 

> 자원배 치 할당자 (resource map allocator) 

> 2 의 제곱 자유목록 aree list) 

> 맥 쿠식 -카렐 (McKusick-Karels) 할당자 

> 형제 체 계 (buddy system) 

> 마크 (Mach) 의 지 역 할당자 Uone allocator) 

> Dynix 할당자 

> Solaris 의 스랩 (Slab) 할당자 

4 프로쎄스의 가상주소공간다루기 

프로쎄스주소공간에는 프로쎄스가 접근할수 있는 모든 가상기억주소가 들어있다. 핵 
심 부는 프로쎄 스의 가상주소공간을《 기 억 기 령 역 서 술자 (memory area descriptor) 》의 
목록에 보관한다. 실례로 프로쎄스가 execO 계렬의 체계호출을 하여 어떤 프로그람을 
실행 하면 핵심부는 프로쎄스에 다음과 같은 기 억기 령 역으로 구성된 가상주소공간을 할당 
한다. 

> 프로그람의 실행코드 

> 프로그람의 초기화된 자료 

> 프로그람의 초기화되지 않은 자료 

> 초기 프로그람탄창(즉 사용자방식 탄창) 

> 프로그람이 필요로 하는 공유서고 (shared 1 比) rary) 의 실행코드와 자료 

> 동적기억기 (heap, 프로그람이 동적으로 요구하는 기 억기) 

모든 최 신 Unix 조작체 계 는 《 요구페 지 화 (demand paging) 》라는 기 억 기 할당방책 
을 받아들이고있다. 요구페지화를 러용하면 물리기억기에 프로그람의 폐지가 전혀 없더 
라도 프로쎄스는 프로그람실행을 시작할수 있다. 프로쎄스가 존재하지 않는 폐지에 접근 
하면 기억기관리장치는 례외를 발생시키고 례외처리기는 해당 기억기령역을 찾아서 자유 
폐지를 할당한 후 이것을 정확한 자료로 초기화한다. 이와 비슷하게 프로쎄스가 
mallocO 를 사용하거나 brk() 체계호출 (mallocO 는 내부적으로 이 체계호출을 실행한 
다)을 호출하여 동적으로 기억기를 요구하면 핵심부는 해당 프로쎄스의 동적기억령역크 
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기만 갱신한다. 나중에 핵심부는 프로쎄스가 가상기억령역에 접근하다가 례외가 발생할 
경우에만 폐지틀을 할당한다. 가상주소공간은 앞에서 언급한 《Copy On Write ) 같은 
효률적인 방책을 가능하게 한다. 실례로 새로운 프로쎄스를 생성할 때 핵심부는 단순히 
부모의 폐지틀을 읽기전용으로 표시한 후 자식의 주소공간에 할당한다. 그래서 부모나 자 
식이 폐지의 내용을 수정하려고 하는 즉시 례외가 발생하고 례외처리기는 내용을 수정하 
려고 한 프로쎄스에 새로운 폐지틀을 할당하고 이것을 원래 폐지의 내용으로 초기화한다. 

4 바꾸기 와 고속완충 ( caching ) 

Unix 조작체계는 프로쎄스가 사용할수 있는 가상주소공간의 크기를 확장하기 위해 
디 스크에 있는 《 바꾸기 령 역 (swap area ) 》을 리 용한다. 가상기 억 체 계 는 한 폐 지 틀의 
내 용을 기 본적 인 바꾸기 단위 로 여 긴다. 프로쎄 스가 바꾸어 내 보내 기 (swap out ) 한 폐 지 
에 접근하려고 할 때마다 기억기관리장치는 례외를 발생시킨다. 그러면 례외처리기가 새 
로운 페지틀을 할당하고 폐지틀의 내용을 디스크에 보관된 이전 내용으로 초기화한다. 

한편 물리기억기를 하드디스크나 다른 블로크장치를 위한 고속완충기억기 ( cache ) 로 
도 사용할수 있다. 이것은 하드디스크구동장치가 매우 느리기때문에 디스크에 접근하는 
데는 종종 체계성능에서 문제가 된다. 초기에 Unix 체계에서도 디스크에서 읽은 블로크 
에 대 응하는 디 스크완충기 들을 주기억 기 에 줌으로써 디 스크에 기 록하는 작업 을 될수록 
뒤로 미루는 방책으로 되여있었다. syncO 체계호출은 모든《불결한 ( dirty )》 완충기 (즉 
완충기의 내용과 이에 대응하는 디스크블로크의 내용이 다른 모든 완충기)를 디스크에 
기록하여 디스크의 동기화를 강제로 진행한다. 모든 조작체계는 자료를 잃지 않도록 주 
기적으로 불결한 완충기를 디스크에 기록하는데 신경을 쓴다. 

16) 장치구동기 

핵 심 부는《 장치 구동기 (device driver ) 》를 롱해 입 출력 장치 와 호상작용한다. 장치 
구동기는 핵심부에 들어있으며 하드디스크나 건반，마우스，모니터， SCSI 모선에 련결된 
장치, 망카드와 같은 장치를 하나이상 조종하는 자료구조와 함수로 이루어진다. 각 구동 
기는 특정 한 대면부에 따라 핵 심부의 다른 부분과(다른 구동기와도) 호상작용한다. 

이런 접근 방법에는 다음과 갈은 우점이 있다. 

> 장치 에 따라 고유한 코드를 특정한 모둘안에 넣을수 있다. 

> 제품생산자는 핵심부원천코드를 모르더 라도 새 로운 장치를 추가할수 있다. 단지 
대 면부명세 (Interface specification ) 만 알면 된다 . 

> 핵 심부는 모든 장치를 똑갈은 방법 으로 다루고 똑같은 대면부로 접 근한다. 

> 체계를 재 시 동하지 않고도 핵 심 부에 동적 으로 적 재 할수 있 는 모둘형 태로 장치 구 
동기를 만들수 있다. 또한 더는 필요없는 모둘을 동적으로 부러워 핵심부영상이 
주기 억 기 에 서 차지 하는 크기 를 줄일수 있 다. 

그림 1一4는 장치구동기가 핵심부의 다른 부분과 프로쎄스와 어떻게 호상작용하는 
가를 보여준다. 
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장치구동기대면부 



어떤 사용자프로그람 (pH 하드웨어장치를 리용하려고 한다고 하자. 이 프로그람은 
파일을 다투는 일반적 인 체계호출과 보통 /dev 등록부에서 찾을수 있는 장치파일을 사 
용하여 핵심부에 요청을 할수 있다. 실제로 장치파일은 장치구동기대면부에서 사용자가 
볼수 있는 부분이다. 각 장치파일은 특정한 장치구동기와 련결되여있어서 하드웨어구성 
요소에 작업을 요청하면 핵심부가 장치구동기를 호출하게 된다. 

Unix 가 등장했을 때에는 도형처리가 가능한 말단이 드물었으며 매우 비쌌기때문에 
Unix 핵심부는 자모와 수자를 지원하는 말단만 직접 다투었다. 그러나 도형처리가 가능 
한 말단이 널리 보급되 여 X Windows 체 계 와 같은 특별한 응용프로그람은 도형 대 면부카 
드의 입출력포구와 비데오기억령역에 직접 접근하면서도 표준프로쎄스로 동작하였다. 
Linux 핵심부 2. 4이상을 포함한 최신의 Unix 핵심부중 일부는 도형카드의 프레임완충기 
(frame bu 打 er ) 를 추상화하여 응용프로그람이 도형대면부카드의 입출력포구에 관해 아 
무것도 모르더라도 비데오카드에 접근할수 있게 한다. 
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제 3절. 핵심부프로그람의 기초 


Linux 핵 심 부는 C 와 아쌤 블러 어 로 작성 되 여있 다. 핵 심 부를 분석 하는데 서 이 러 한 언 
어의 특성들을 잘 아는것이 중요하므로 이 절에서는 여기에 대하여 실제적인 핵심부 
2.6. 9판의 원천코드를 기 초로 론의 를 진행한다. 

1. Intel x 86 CPU 계렬의 주소지정방식 

Linux 핵심부는 각이한 기본방식에 대응하고있지만 가장 보편적인것이 Intel 계렬이 
므로 이 기본방식의 중요요소들이 프로그람적으로 어떻게 실현되는가를 보기로 한다. 


토막등록기 


8192 개 의 공용 혹은 
국부서술자표항목으로부터 
1 개의 서술자부를 선택 



TI=0 인 때 GDTR 를 사용 특권준위 표시 
TI=1 인 때 LDTR 를 사용 00= 최 고준위 
11=최저 준위 


그림 1-5. 토막등록기의 자료마당 


GDTR 혹은 LDTR 중의 토막서술자표지적자의 토막등록기의 값을 결합하여 구체적 
인 기억기 안의 어느위치의 토막서술자인가를 결정한다. 
typedef struct { 

unsigned short seg _ idx ：13 /*13 bit 의 토막서술자항목지정*/ 

unsigned short ti ： l ； /* 토막서술자표를 가리키는 비트*/ 

unsigned short rpl ： 2 ； /* 요구특권준위*/ 

} 토막등록기; 

토막서술자표 


B31 - B24 

G | D | A | | L19 - L16 

P | DPL S | TYPE 

B23 - B16 

B15 

- B0 

L15 

- L0 


B 31- B 24, B 23- B 16, B 15- B 0 : 기준주소 (32 bit ) 
L 19- L 16, L 15- L 0 : 토막크기 (20 bit ) 


그림 1-6. 토막서술자표의 구성 
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typedef struct { 
unsigned int base24_31：8； 
unsigned int g:l; 
unsigned int d_b：l； 
unsigned int avl：l； 
unsigned int unused：!； 


/* 기준주소의 제일 웃 8 bit / 

/* 토막크기 단위 비트. 0- 바이트， l -4 kB */ 
/* 기정동작크기존재방식 0=16，1=32단위*/ 
/* 유효, 체 계 쏘프트웨어 사용이 가능*/ 


/* 고정설치는 0*/ 


unsigned int seg _ limit _16_19 :4: /* 토막크기*/ 

unsigned int p ： l ； /* 토막이 존재, 0일때 해당토막의 내용이 기억기에 존재하 
지 않음*/ 

unsigned int dpi : 2 : /* 서술자특권 준위*/ 

unsigned int s：l； /* 서술자항목의 류형, 1- 체계, 0- 코드 혹은 자료 구조*/ 

unsigned int type： 4； /* 토막의 류형, 우의 s 와 함께 사용*/ 

unsigned int base_0_23：24； /* 기 준주소의 아래 24bit*/ 

unsigned int seg_limit_0_15：16； /* 토막크기의 아래 16b 比*/ 

} 토막서술자항목; 

기준주소가 높은 8 bit , 아래 24 bit 로 갈라진것은 기동시 Intel 에서는 24 bit 주소공간 
이고 그후 32 bit 의 주소공간으로 되기때문이 다. 

g 비트가 1일 때 크기단위는 4 kB 이며 토막크기바이트의 아래 16 bit 의 용량은 64 K 이므 
로 한 토막의 최대가능한 크기는 64 KX 4 K =256 M 이며 이것이 24 bit 주소공간의 크기로 된다. 

CPU 는 새토막등록기 내 용 및 GDTR 혹은 LDTR 내 용에 근거 하여 대 응하는 토막서 
술자항목을 찾아서 CPU 에 넣는다. 이 과정에 CPU 는 p 비트 (《 present 》 를 표시)를 
검사하여야 하는데 이 비트가 0 이면 해당서술자항목이 가리키는 토막내용이 기억기에 
없다는것을 표시하며 이때 CPU 는 1차례외 ( exception , 새치기와 류사하다.)을 발생한 
다. 해당 봉사프로그람은 자기원판교환구획으로부터 이 토막의 내용을 기억기에 읽어들 
인 후 다시 p 비트를 1로 설정하고 기억기에서 잠시 사용하지 않는 토막을 자기원판에 
쓰기하고 그 토막의 서술자항목에서 p 비트를 0으로 설정한다. 

특권명령 LGDT 는 0급상태에서만 사용할수 있다. 일반적으로 프로그람의 실행급수 
는 그 코드토막의 국부서술자항목(즉 토막등록기 CS 에 의해 지정되는 국부토막서술자항 
목)안의 dpi 에 의해 결정된다. 
dpi ： 서술자특권준위 

매개 토막서술자항목의 dpi 은 모두 0급상태에서 핵심부에 의해 결정된다. 

토막등록기 CS 의 ti 비트가 1일 때 전체적인 토막서술자표를 사용해야 한다는것을 
표시하며 0일 때에는 국부서술자표를 사용하며 rpl 은 요구하는 권한을 표시한다. 


2. i 386 의 페지화기억기관리 

선형 주소 
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80386 은 선형주소공간을 4kB 의 폐지로 분할하며 매 폐지는 물러기억공간의 임의의 
4kB 크기의 구간을 반영한다. 토막내에서 편위주소는 련속이며 선형주소는 련속이 아니다. 

31 22 21 12 11 0 

폐지목록 dir 페지표 page 폐지내편위 offset 


그림 1-7. 선형주소 


typedef struct { 

unsigned int dir : 10; /* 해당목록항목에서 1개의 폐지로 지정*/ 

unsigned int page ： 10； /* 구체적인 페지표안의 주소，해당 표항목은 1개 
의 물리폐지를 지정*/ 

unsigned int offset ： 12； /*4 kB 페지내의 편위주소*/ 

} 선형주소; 

폐지목록에는 2 1 G =1024 개의 목록항목이 존재하며 매개 목록항목은 1개의 페지표를 
지정한다. 매 개 페지 표에는 또 1024개의 폐 지서 술자항목이 있다. 

선형주소로부터 물리주소에 로의 변환과정 

① CR 3 등록기 로부터 폐 지 목록의 기 준주소를 얻는다. 

② 선형주소의 dir 값으로부터 목록내의 해 당 페지표기준주소를 엄는다. 

③ 선형주소의 page 값으로부터 페지표의 해당 폐지서술자항목을 찾는다. 

④ 페지서술자항목의 폐지기준주소와 선형주소안의 off set 값을 더하여 물리 
주소를 얻는다. 
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typedef struct { 

unsigned int ptba ：20； /* 페지표기준주소의 높은 2 Obit */ 

unsigned int avail : 3 : /* 체계 프로그람작성 자가 사용*/ 

unsigned int g : 1; /* global ， 대 역 폐지*/ 

unsigned int ps ： l ； /* 페지크기, 0은 4 kB 를 표시*/ 

unsigned int reserved : 1; /* 예 약, 영원히 0이 다.*/ 
unsigned int a : l ; / * accessed , 이미 호출됨*/ 


unsigned int pcd ： l ； 
unsigned int pwt : 1 ； 
unsigned int u _ s : l ; 


/* 닫긴 (사용하지 않음) 완충기 억 기 */ 

/* Write - Through , 완충기억 기 에 사용*/ 
/*0인 때 체계권한，1인 때 리용자권한을 


표시 */ 


unsigned int r _ w : l ; 
unsigned int p ： l ； 


/* 읽기전용 혹은 쓰기가능*/ 

/*0인 때 해당폐지가 기억기에 존재하지 않음*/ 


} 목록항; 

3. 프로그람언어 
1) C 언어 

Linux 에서 핵심부의 기본부분은 GNU 의 C 언어로 씌여있으며 GNU 가 제공하는 를 
파일러는 gcc 이다. gcc 는 C ++ 언어에서 《 inline 》 과 《 const 》 를 받아들였다. GNU 의 
C 와 C ++ 는 일 체 화되 였 으며 gcc 는 C 콤파일 러인 동시 에 C ++ 콤파일 러 이다. 기 능상 
inline 함수의 사용과 # define 마크로정의는 서로 비슷한데 다만 상대적 인 독립성을 가지 
며 또 더 안전하다. inline 함수를 사용하면 프로그람검사에 유리 하다. 

64 bit 의 CPU 구조를 지원하기 위해 gcc 는 《long long int 》 라고 하는 일종의 새 
로운 기본자료류형을 확장하였다. gcc 는 예약어를 가지지만 사용이 약간 다르다. 대부 
분의 C 언어와 같이 gcc 는 《 aligned 》, 《 packed 》 등과 같은 속성서술기호를 제공한 
다. 이려한 서술기호는 C 언어에서 새로운 예약어를 추가하는데 사용한다. 그러나 원래 
의 C 언어에서 (ANSI C 와 갈은) 이것은 비예 약어를 발생하며 이러한것은 충돌을 발생시 
킬수 있다. 이를테면 gcc 는 예약어 inline 을 제공하며 《 inline 》 은 원래 예약어가 아 
니 므로 ( C ++ 에서 예 약어이 다. ) 오랜 코드에서 는 이 미 inline 이 라고 하는 변수이 름을 가 
질수 있는데 이것은 충돌을 발생한다. 이러한 문제를 해결하기 위해서 gcc 는 예약어로 
사용하는 《 inline 》 앞과 뒤 에 《_》을 삽입 하여 《_ inline _》 등으로 한다. 마찬가지 
로 《 asm 》 에 대해서는《_ asm _》으로 한다. 

gcc 는 속성서술에 쓰이는 예 약어 《 attribute 》 를 가진다. 


struct foo { 
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char a ； 

int x [ z ] — attribute — (( packed )) : 

} 

여기서 속성기호 《 packed 》 는 문자 a 와 옹근수배렬 x 사이에서 공백으로 채우거나 
남기는데서 32 bit 긴옹근수배렬한계에 따르지 않게 된다는것을 표시한다. 이렇게 
《 packed 》 는 바로 변수이름에서 충돌을 발생할수 있다. Linux 핵심부의 판본은 gcc 판 
본에 의존한다. 

다음의 실례를 고찰하자. 


tdefine DUMP_WRITE ( addr , nr ) do { memcpy ( bufp , addr , nr ), bufp += n 
r ； } while (0) 


do - while 순환을 먼저 실행한 후 순환조건을 판단한다. 그러면 왜 이런 형태를 리 
용하는지 아래의 식을 살펴보기로 하자. 

#define DUMP_WRITE ( addr , nr ) memcpy ( bufp , addr , nr ) ；\ 
bufp += nr 


다음 

If ( addr ) 

DUMP_WRITE ( addr , nr ) : 
else 

do _ something_else (); 

은 다음과 같이 된다. 
if ( addr ) 

memcpy ( bufp , addr , nr ), bufp += nr ； 
else 

do _ something_else () : 

이 경우 이 코드를 콤파일할 때 gcc 는 실패할수 있으며 따라서 문법 오유를 통지 한 
다. 왜 냐면 gcc 는 memcpy () 이 후에 if 문을 끝내 기때 문에 else 로 넘 어 간다. 

이를 위해 
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tdefine DUMP_WRITE (addr, nr) { memcpy (bufp, addr, nr) ； \ 
bufp += nr； } 


따라서 

if ( addr ) 

{ memcpy ( bufp , addr , nr ) : bufp += nr ； }; 

else 

do _ something_else () : 

여기서는《:》문에서 결속이 되므로 else 는 오유로 된다. 따라서 do - while 의 정 
의를 임의의 정황하에서 정의하여 문제를 없앤다. 

2) 아쌤불러어 

UNIX System V 원천코드에 서 3만행 의 핵 심 부원천코드중에 서 아쌤 블러어 는 약 
2000행이 씌여져있다. 거의 20개의 . S 와 .이의 확장자를 가진 파일로 갈라가며 그 중 
대부분은 새 치 기와 이상처 리를 위한 낮은 준위의 프로그람이다. 

아쌤블러 어코드를 리용하는 리유는 다음과 같다. 

조작체계핵심부내의 낮은층 프로그람은 직접 하드웨어와 통신하며 일련의 전송지령 
을 리용하는데 c 에는 이러한 지령이 없다. 실례로 386체계구조에서 inb , outb 등과 같 
은 외부입출력지령에 대해 대응하는 C 언어문구는 없다. 따라서 이러한 낮은층의 조작은 
아쌤블러 어를 써 야 한다. 

CPU 의 일부 특수지 령 즉 등록기들에 대 한 조작과 새 치 기중지와 새 치기발생과 같은 
지령도 마찬가지인데 대응하는 C 언어성분은 없다. 이외에 갈은 종류의 체계구조의 각이 
한 CPU 소편중에서 새로 개발하여 나온 CPU 소편들 즉 Pentium , Pentium II , 
Pentium MMX 에서는 특별히 새로운 지령들이 추가되였는데 이 지령에 대한 사용도 역 
시 아쌤블러어를 리용한다. 

핵심부는 보조프로그람과 함수와 같은 일부 조작을 진행하는데 실행시에 자주 호출 
되는 이러한 것들에 대해서는 아쌤블러어를 리용하여 효률을 높일수 있다. 아쌤블러어를 
리용하여 쓴 프로그람은 산법과 자료구조가 서로 같은 조건하에서 고급언어를 리용하여 
쓴것에 비해 그 효률이 보통 높다. 

다음으로 아쨍블러어를 쓰면 프로그람규모를 작게 할수 있다. 일부 특수한 경우에 
보조프로그람의 공간도 아주 중요하게 나타난다. 그러한 대표적인 실례는 조작체계인도 
프로그람 ( Boot 프로그람)이다. 체계의 인도프로그람은 보통 자기원판상의 첫번째 분구에 
들어있다. 이것은 아쌤블러 어로 되 여있다. 

그러 면 Linux 핵 심부코드에 아쌤 블러 어 로 씌 여진 프로그람형 태는 어떤가. 

Unix 에서는 AT & T 가 정의 한 형 식의 아쌤 블러 어 를 받아들였다. GNU 가 개 발한 각 
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종 체 계 프로그람은 AT & T 의 386아쌤블러어형 식 을 계승하였으며 Intel 의 형 식을 받아들 
이 지 않았다. 그러 나 이 두개 의 아쨈 블러어 사이에 는 큰 차이 가 없 다. 

Intel 형식에서는 대문자를 많이 쓰지만 AT & T 형식에서는 모두 소문자를 사용한다. 

AT & T 형식에서는 등록기명이 앞에 《%》가 불는데 Intel 형식에서는 그렇지 않다. 
AT & T 의 386아쨈블러어중에서 지령의 원천연산수와 목표연산수는 Intel 의 386아쌤블 
리어에서와 서로 반대이다. Intel 형식에서는 목표는 앞에 있으며 원천은 뒤에 있다. 그 
러나 AT & T 형식에서는 원천은 앞에 있으며 목표는 뒤에 있다. 실례로 등록기 eax 의 내 
용을 이교에 넣을 때 Intel 형식에서는 《MOV EBX , EAX ) 이지만 AT & T 형식에서는 
《 mov % eax , %ebx ) 로 된 다. 보는것 처 럼 Intel 형 식의 설계 자가 생 각한것 은《 宅 eax - 
>% ebx ) 이 다 . 

AT & T 형식 에서는 지 령 내의 연산수크기(넓 이)는 연산명 령이름의 제 일 마지막자모 
(연산명령의 제일 마지막 글자)로부터 결정된다. 연산명령뒤에 놓는 자모로는 b (8 bit ), 
w (16 bit ), l (32 bit ) 을 가진다. Intel 형식에서는 기억단위를 나타내는 연산수의 앞에는 
《 BYTEPTR 》, 《 WORDPTR 》， 혹은 《DWORD PTR 》 를 붙여서 표시한다. 

실례로 

MOV AL , BYTE PTR FOO ( Intel 형식) 

movb FOO , %al ( AT & T 형식) 

AT & T 형식에서는 직접연산수가 앞글자로 《$》을 추가하여야 하는데 Intel 형식에 
서는 앞글자에 아무것도 없다. 

Intel 형 식 PUSH 4 

AT & T 형 식 pushl $4 

AT & T 형식 에서는 절대 이 행 혹은 호출지 령 jump / call 의 연산후 (즉시 이 행 및 호출 
의 목표주소)는 앞글자로《*》을 추가한다. (대체로 C 언어에서 지적자와 같이) 그러나 
Intel 형식에서는 없다. 

원격 이행지 령 과 원격보조프로그람호출지 령의 연산명 령 의 이 름은 AT & T 형 식 에서는 
《 ljmp 》 혹은 《 lcall 》 이며 Intel 에서는 (JMP FAR 》 와 《CALL FAR 》 이다. 


CALL 

FAR SECTION：OFFSET ( Intel 형식) 

JMP 

FAR SECTION：OFFSET ( Intel 형식) 

lcall 

$ section , Soffset 

( AT & T 형식) 

ljmp 

Ssection , Soffset 

( AT & T 형식) 

되돌이지령은 


RET 

FAR STACK_ADJUST ( Intel 형식) 

lret 

$ stack_adjust 

( AT & T 형식) 
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간접주소의 일반형식은 차이가 있다. 

SECTION ： [ BASE + INDEX * SCALE + DISP ] ( Intel 형 식 ) 
section : disp ( base , index , scale ) ( AT&T 형 식 ) 

3) C 원천코드에 삽입하는 386아쌤 블러 어 

C 언어의 프로그람에 1토막의 아쌤블러어프로그람을 삽입할 때 gcc 가 제공하는 
《 asm 》 단어기능을 사용할수 있다. 

실 례 : include / asm / io . h 

static inline void slow _ down _ io ( void ) { 

— asm _ volatile — ( 

_ SLOW _ DOWN_IO 
#ifdef REALLY—SLOWJO 

_ SLOW _ DOWN_IO _ SLOW _ DOWN_IO _ SLOW _ DOWN_IO 

#endif 


여기서 asm 과 volatile 앞뒤에 《_》글자가 불었는데 이것은 C 언어에 대한 gcc 의 
일종의 확장이다. 

같은 하나의 asm 단어에 여러 행의 아쌤블러어프로그람을 삽입할수 있다. 그리고 각 
이한 조건에서 _ SLOW _ DOWN _ I ◦는 또한 각이한 정의를 가전다. 

#ifdef SLOW _ IO _ BY_JUMPING 

#define _ SLOW _ DOWN_IO "jmp If ； 1： jmp If ； 1：" 

telse 

#define _ SLOW _ DOWN_IO "outb %% al ,$0 x 80；" 

#endif 


우의 첫번째 경우에 목표 If 는 앞방향가기를 표시 하는데 社는 forward 를 표시) 첫 
번째기호가 1인 행을 찾는다. 이와 마찬가지로 lb 는 뒤방향탐색을 표시한다. 

보다 더 정확한 리해를 위해 include / asm / atomic . h 에 있는 다음의 함수를 고찰하자. 

static _ inline — void atomic _ add(int i , atomic_t * v ) 

{ 

— asm _ volatile — ( 

LOCK "addl U,W" 

'■ "= m " ( v -> counter ) 
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: " ir " ( i ), " m " ( v -> counter )) : 

} 

C 코드에 삽입하는 아쌤블러어코드의 형식은 다음과 같다. 

지령부: 출력부: 입력부: 파괴부 

여기서 《:》는 앞에서 고찰한《1:》과 다르다. 첫번째 부분은 아쌤블러어구문의 
본체이며 그 형식과 아쌤블러 어프로그람에서 사용하는것은 서로 갈으며 다만 구별이 있 
다. 이 부분은 반드시 있어 야 한다. 

지령부에서 수자는 앞에 %을 붙혀서 W , %1로 하는데 이것은 등록기를 사용해야 하 
는 연산수를 표시한다. 사용가능한 형태의 연산수의 총수는 구체적인 CPU 의 일반등록 
기개수에 의해 결정된다. 

《출력부》는 출력변수에 대해 규정하는데 목표연산수는 결합의 약속조건으로 된다. 
이 러 한 매 개 조건을《 약속 ( constraint ) > 이 라고 한다. 

:” = m ” ( v _> counter ) 

여기서 약속 《 = m 》는 해당 목표연산수(지령부중의 %0)가 1개의 기억단위 v - 
> counter 이 라는것 을 표시 한다. 

《입력부》에서는 입력약속과 출력약속은 서로 비슷한데 《 =》기호가 없다. 

실례에서 입력부는 2개의 약속을 가전다. 첫번째 《 ir 》( i ) 는 지령중의 %1이 등록기 
중의 하나의 《직접연산수》 ( i 는 immediate 을 표시)라는것을 표시하며 또 해당 연산수 
가 C 원천코드중의 변수명 (이 안에서는 호출참조이 다.) i 로 된다. 두번째 약속 《 m 》( v - 
> counter ) 은 입 력약속에서 의미가 서로 같다. 1개의 입력 약속이 등록기사용을 요구하 
면 바로 전처리시에 g CC 는 1 개의 등록기를 분배하여 필요한 지령을 자동삽입하여 변수 
의 값은 해당 등록기 에 들어 간다. 

아래의 표에서는 기본적인 약속조건들을 보여준다. 

m l - i . 후요의_유 (a fi 시하는 자모 


자 모 

의 미 

“ m ” , “ v ” , “ o ” 

기억기단위를 표시 

“ r ” 

임의의 등록기를 표시 


등록기 eax , ebx ， ecx , edx 중의 하나를 표시 

“ i ” , “ h ” 

직접 연산수를 표시 

“ E ” , “ F ” 

류점수를 표시 

“ g ” 

《임의》를 표시 

“ a ” , “ b ” , “ c ” , 

등록기 eax , ebx , ecx , edx 를 사용하는가를 갈라서 표시 
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“ d ” 


“ S ” , “ D ” 

등록기 esi 혹은 edi 인가를 갈라서 사용할것을 요구 

T 

상수《0부터 31》을 표시 


1개의 연산수가 앞의 어떤 약속중에서 사용을 요구하여 요구하는것이 같은 등록기 
이면 그것은 곧 그 약속에 대응한 연산수기호를 약속조건에서 해방한다. 

이외에 만일 조작후의 앞에서의 일부 약속에서 요구한것과 같은 등록기를 사용할것 
을 요구한다면 그 약속에 대응한 연산수쓰임번호를 약속조건에 놓는다. 

파괴부에서는 항상 《 memory 》 를 약속조건으로 놓는데 조작완성후에 기억기의 내 
용이 이미 변하였다는것을 나타내며 만일 원래의 일부 등록기(해 당 체계의 조작에서 아 
직 쓰이지 않고)의 내용이 자기기억기로부터 온것이라면 현재 일치하지 않을수 있다. 주 
의해야 할것은 출력부가 빌 때 즉 출력약속이 없을 때 만일 입력약속이 존재하면 반드시 
기 호《 :》를 보류한다. 

우의 실례는 변수 I 의 값을 v -> counter 에 더하는것이다. 관건자 LOCK 는 addl 지 
령을 실행할 때 체계의 모선을 잠그어 다른 CPU (체계에 1개 CPU 가 아니라면)로 하여 
금 다치지 못하게 하는것 이 다. C 코드로서는 “ v->counter += i ;” 로 된다. 
include / asm / bitops . h 파일의 내용을 고찰하자. 

#ifdef CONFIG_SMP 

#define LOCK_PREFIX "lock ; " 

#else 

#define LOCK_PREFIX "" 

#endif 

#define ADDR (* (volatile long *) addr ) 

static inline void _ set _ bit(int nr , volatile unsigned long * addr ) 

{ 

— asm — ( 

” btsl U , W " 

: "= m " ( ADDR ) 

: " Ir " ( nr ))； 

} 

지 령 btsl 은 1 개의 32 bit 연산수들의 어떤 lbit 를 1로 설정한다. 변수 nr 는 해 당 위 
치를 표시한다. 

다음 실례 로서 include / asm / string , h 을 고찰하자. 
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static inline void * _ memcpy(void * to , const void * from , size_t n ) 

{ 

int dO , dl , d 2； 

— asm _ volatile — ( 

"rep : movsl \ n \ t " 

"testb $2,% b 4\ n \ t " 

”je lf \ n \ t " 

" movsw \ n " 

" l:\ttestb $1, % b 4\ n \ t " 

"je 2 f \ n \ t " 

" movsb \ n " 

" 2 ：" 

: "=& c " ( dO ), "=& D " ( dl ), "=& S " ( d 2) 

: "0" ( n /4), " q " ( n ), ” 1” (( long ) to ), "2" (( long ) from ) 

: " memory ") : 
return ( to ); 

} 

여기서 《\ n > 은 행바꾸기부호이며 《\ t 》 는 TAB 부호를 표시한다. 우의 코드에서 
지 령부를 풀어서 보면 아래와 갈다. 
rep ； movsl 

testb $2, % b 4 
je If 
movsw 

1： testb $1, % b 4 
je 2 f 
movsb 

2： 
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제 2 장. 파일체계 

제 1 절. 가상파일체계 

Linux 는 다른 체계와 공존할수 있는 특성이 있는데 Windows 나 다른 Unix 체계 
심지어 Amiga 와 같은 조작체계의 고유한 파일형식의 디스크나 구획도 탑재할수 있다. 

Linux 는 Unix 체계와 마찬가지로 가상파일체계라는 개념을 사용하여 여러가지 디 
스크류형을 지원한다. 

가상파일체계리 면에 있는 사상은 여 러 가지 류형의 파일체 계 를 지 원하기 위 한 광범 한 
정보를 핵심부에 포함하는것 이 다. 

핵심부에는 Linux 에서 사용할수 있는 매개의 실제 파일체계가 제공하는 조작을 지 
원하기 위한 마당이나 함수가 있다. 

핵심부는 매개의 read , write 혹은 기 타 다른 함수의 호출에 대 해 파일이 들어있는 
파일 체 계 에 따라 Linux 고유의 파일 체 계 , NT 파일 체 계 또는 다른 파일 체 계 의 실제함수 
로 대신한다. 

이 절에서는 Linux 가상파일체계의 목적，구조, 실현 등을 다룬다. 다섯가지 표준 
Unix 파일류형중에서 정규파일 (regular file ), 등록부, 기호련결, 이 3가지를 집중적으 
로 본다. 

1. 가상파일체계의 역할 

《 가상파일 체 계 ( VFS : Virtual File System ) 》는 표준 Unix 파일 체 계 가 제 공하는 모 
든 체 계호출을 처 리하는 핵 심부쏘프트웨 어계 층이 다. VFS 의 우점은 여 러 종류의 파일체 
계 에 대해 공통대면부를 제공한다는 점 이 다. 



inf=open( “/floppy/ TEST” , 

O.RDONLY, 0) ； 

outf= open( 7tmp/ test” 

O.WRONLY | O—CREAT | 
O—TRUNC, 0600) ； 
do{ 

l=read (inf, buf, 4096); 
write (outf, buf, 1) ； 
}while(l )； 
close (outf); 
close (inf); 


( b ) 


그림 2-1 단순한 파일복사작업을 위한 VFS 의 역할 
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례를 들어 어떤 사용자가 다음과 같은 월명 령을 수행 하였다고 하자. 

$ cp / floppy/TEST / tmp/test 

여기서 /floppy 는 MS-DOS 유연성자기원판의 탑재지적자이고 /tmp 는 일반 
Ext 2 (2 차확장파일 체 계 ) 등록부이 다. 

그림 2-1 의 ( a ) 에서 보는바와 같이 VFS 는 응용프로그람과 파일체계실현사이의 추 
상계 층이다. 

따라서 cp 프로그람은 / floppy/TEST 와 / tmp/test 의 파일체계류형을 알 필요가 
없다. 

대신 Unix 프로그람작성을 해본 사람이라면 누구나 잘 알고있는 일반체계호출을 통 
해 VFS 와 호상작용한다. 

cp 가 실행하는 코드는 그림 2-1 에서 볼수 있는 ( b ) 와 같다. 

VFS 가 지원하는 파일체계는 크게 다음과 같이 세 부류로 나눌수 있다. 

1) VFS 가 지원하는 파일체계 
A 디 스크기 반의 파일체계 

국부디스크구획의 기억장소를 관리한다. VFS 가 지원하는 잘 알려진 디스크기반의 
파일체 계는 다음과 같다. 

• 널 리 사용되는 Ext 2, Ext 3 그리 고 ReiserFS 와 같은 Linux 의 독자적 인 파일체계 
■SYS VCSystem V , Coherent , XENIX ) 와 UFS ( BSD , Solaris , NeXT ), 

MINIX 파일체 계 , VxFS(SCO Unix 웨 어) 등 다른 Unix 를 위 한 파일체계 

- MS - DOS , FAT 16, FAT 32, NTFS ( Windows 95 와 그 이 후 배포판)， 

NTFS ( WindowsNT , Windows 2000 , WindowsXP ) 같은 마이 크로소프트파일 체 계 

• ISO 9660 CD-ROM 파일 체 계, 통합디 스크형 식 화 ( UDF , Universal Disk 
Format ) DVD 파일 체계 

•IBM OS /2 ( HPFS ), Apple Macintosh ( HFS ), Amiga Fast 파일 체계 ( AFFS ), 
ADFS 등 기타 전용파일체계 

• IBM 의 JFS , SGI 의 XFS 등 Linux 이 외 의 체 계 에 서 유래 된 추가적 인 기 록형 파 
일체 계 

4- 망파일체계 

망으로 련결된 다른 를퓨터의 파일체계에 있는 파일에 쉽게 접근하게 해춘다. 

VFS 가 지원하는 잘 알려진 망파일체계로는 NFS , Coda , AFS , SMB (Server 
Message Block , Microsoft Windows , IBM OS /2 국부망 관리에서 파일과 인쇄기공 
유를 위해 사용한다)， NCP(Novel Netware Core Protocol ) 등이 있다. 

4 - 특수파일체계 

이 파일체 계는 자신의 를퓨터 나 다른 를퓨터의 실제 디 스크공간을 관리하지 않는다. 
/proc 파일체계는 전형적 인 특수파일체계 이 다. 
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Unix 등록부는 뿌리 가 /등록부인 나무구조를 만든다. 

Linux 에서 뿌리 등록부는 대 개 Ext 2 류형 의 뿌리 파일체 계 (root file system ) 에 위 치 
한다. 

다른 모든 파일체계는 뿌리 파일체계의 보조등록부에 탑재된다. 

디 스크기 반의 파일체 계 는 일 반적 으로 하드디 스크, 유연성 자기 원판, CD-ROM 등의 
하드웨 어 블로크장치 에 저 장한다. 

Linux VFS 가 제공하는 유용한 기능에는 / dev / loopO 같은 《 가상블로크장치 
(virtual block device ) 》를 다루는 기능이 있는데 정규파일에 저장된 파일체계를 탑 
재하는데 사용할수 있다. 

활용가능한 응용분야의 례를 들면 사용자개인의 파일체계를 암호화해서 정규파일에 
저장하여 자신의 개인적인 파일체계를 보호할수 있다. 

최초의 가상파일체 계는 1986년 Sun Microsystems 의 SunOS 에 포함되 였다. 

그 이후 Unix 파일체계는 대부분 VFS 를 포함한다. 

그가운데 서 도 Linux 의 VFS 는 가장 많은 파일 체 계 를 지 원 한다. 

2) 공통파일모형 

VFS 의 핵심개념은 지원하는 모든 파일체계를 표현할수 있는 《 공통파일모형 
(common file model ) 》을 도입 하는것 이 다. 

이 모형 은 전통적 인 Unix 파일 체 계 가 제 공하는 파일 모형 을 따른다. 

그러나 매개의 특정 파일체계를 실현하려면 반드시 자신의 특정한 물리적인 구성을 
VFS 의 공통파일모형으로 변환해 야 한다. 

례를 들어 공통파일모형에서는 매 등록부를 파일의 목록과 다른 등록부들을 포함하 
는 파일처럼 생각한다. 

그러나 일부 비 Unix 계렬의 디스크기반의 파일체계는 등록부나무구조에서 매 파일 
의 위치를 저장한 파일할당표 ( FAT ) 를 사용한다. 

이런 파일체계에서 등록부는 파일이 아니다. 

VFS 의 공통파일 모형을 따르기 위해 FAT 파일체계의 Linux 실현에서는 필요하다 
면 실 행 중에 등록부에 대 응하는 파일 을 생 성할수 있 어 야 한다. 

이 파일은 핵 심부 기 억 기 객 체 로만 존재 한다. 

본래 Linux 핵심부는 read () 나 ioctlO 연산을 처리 하는 특정 함수를 직접 실현 
( hardcode ) 할수 없다. 

대신 각 연산에 대해 지적자를 사용해야 한다. 

지적자는 접근할 특정파일체계를 위한 적절한 함수를 가리키게 한다. 

이 개념을 설명하기 위해서 핵심부가 그림 2-1 에서 본 readO 를 MS - DOS 파일체계 
에 해 당하는 호출로 변환하는 방법을 살펴보자. 

응용프로그람이 readO 를 호출하면 핵심부가 sys _ read () 를 호출한다. 


透資邊 @資變©^ 


47 


Linux 행심부해설서 

이 과정은 다른 체계호출에서도 마찬가지 이 다. 

이 절의 뒤부분에서 볼수 있는것처럼 파일은 핵심부기억기에서 file 자료구조체 
( linux / include / linux / fs . h 에 정의)로 표현한다. 


struct file { 

struct list_head f _ list ； 

struct dentry * f _ dentry ; 

struct vfsmount * f_vfsmnt ； 

struct file_operations 년 lop //* 해 당 파일조작에 대 한 지 적 자*/ 

atomic_t f_count ； 

unsigned int f _ flags ； 

mode_t f_mode ； 

int f _ error ； 

loff_t f_pos ； 

struct fown_struct f _ owner ; 

unsigned int f _ uid , f _ gid ； 

struct file _ ra_state f _ ra ； 

unsigned long f_version ； 


void * f _ security ； 

/* 콘솔장치 나 다른 장치 를 위 하여 러 용*/ 
void * private _ data ; 


#ifdef CONFIG_EPOLL 

/* 이 파일에 대한 모든 후크를 리용하기 위하여 
fs / eventpoll . c 에서 러용*/ 
struct list_head f _ ep_links ； 

spinlock_t f _ ep_lock ； 

#endif /* #ifdef CONFIG_EPOLL */ 
struct address_space * f _ mapping ; 

}； 

이 자료구조에는 f _ op 라는 마당이 있어서 MS - DOS 파일을 처리하는 함수에 대한 지 
적 자를 포함한다. 

이 함수가운데는 파일을 읽는 함수도 있다. 

( linux / fs / fat / file . c 에 선언) 


48 


透資邊 ©資變©^ 


체 2 장. ut°jm 


struct file _ opera 吐 ons fat _ file_operations = { 


11 seek 

= generic _ file _ llseek , 

read 

= generic _ file _ read ，11" 寒。 7 '학수 

write 

= fat _ file _ write , 

mmap 

= generic _ file _ mmap , 

fsync 

= file _ fsync , 

readv 

= generic_f ile_read v , 

writev 

= generic _ file _ writev , 

sendfile 

= generic _ file _ sendfile , 


sys _ read () 는 이 함수에 대한 지적자를 찾아서 호출한다. 

따라서 응용프로그람의 readO 함수는 어느 정도 간접적 인 호출로 바뀐다. 

file -> f _ op -> read (■ - •) : 

이와 비슷하게 writeO 연산은 출력파일에 대응하는 적당한 Ext 2 쓰기함수를 실행하 
도록 한다. 요약하면 핵심부는 매개의 열린 파일에 대해 file 변수에 알맞는 함수지적자 
를 할당하고 f _ op 마당이 가리키는 각 파일체계별로 호출을 실행해야 한다. 

공통파일모형은 객체지향으로 볼수도 있는데 여기서 객체 ( object ) 는 자료구조와 이 
에 대한 연산을 수행하는 메쏘드를 한번에 정의하는 쏘프트웨어구조이다. 성능을 높이기 
위해 Linux 는 C ++ 와 같은 객체지향 언어로 작성되지 않았다. 따라서 객체의 메쏘드에 
대응하는 함수를 가리키는 항목을 포함한 자료구조로 객체를 실현한다. 

공통과일모형은 다음과 같은 객체류형으로 이루어진다. 

‘ 초블로크객 체 

탑재된 파일체계에 대한 정보를 저장한다. 디스크기반의 파일체계의 경우 이 객 
체는 일반적으로 디스크에 저장한 파일체계조종블로크 (file system control 
block ) 에 대응한다. 

4 i 마디객체 

특정파일에 대한 일반정보를 저장한다. 디스크기반의 파일체계의 경우, 이 객체 
는 일반적 으로 디스크에 저 장한 파일조종블로크 (file control block ) 에 대 응한다. 

매 i 마디객체에는 i 마디번호가 할당되여 파일체계내에 있는 매 파일을 유일하게 식 
별 한다. 
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— - ► f_dentry 


► dinode 

► i_sb 


그림 2-2. 프로쎄스와 VFS 객체의 호상작용 


♦ 파일객체 

열린 과일과 프로쎄스사이의 호상작용과 관련한 정보를 저장한다. 이 정보는 각 
프로쎄 스가 파일 에 접 근하는동안 핵 심 부기 억 기 에 만 존재 한다. 

4, 등록부입구점객체 

등록부항목과 이 에 대응하는 파일의 련결에 대 한 정보를 저장한다. 

매 디 스크기 반의 파일체 계 에 서 는 독자적인 방법 으로 이 정 보를 디 스크에 저 장한다. 
그림 2-2 는 프로쎄스가 파일과 호상작용하는 방법을 보여 주는 간단한 례이 다. 
프로쎄스 3개가 과일하나를 연다. 그중 두 프로쎄스는 동일한 하드련결을 사용 
한다. 

이 경우 세 프로쎄스는 자기의 파일객체를 소유한다. 

그러나 등록부입구점객체는 매 하드련결당 하나만 필요하기때문에 두개가 존재 
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한다. 

두 등록부입구점객체는 i 마디객체 하나를 가리키 고 i 마디객체는 초블로크객 체 를 
가리키며 함께 공통디스크파일을 구성 한다. 

VFS 는 모든 파일체계에 대한 공통대면부를 제공하는일 외에도 체계성능과 관련 
한 중요한 역 할을 한다. 

가장 최근에 사용한 등록부입구점객체를 등록부입구점캐쉬 (dentry cache ) 라는 
디스크캐쉬에 저장한다. 

이렇게 함으로써 파일경로명을 경로명의 마지막구성요소인 파일의 i 마디로 변환 
하는 속도를 높인다. 

일 반적 으로 디스크캐 쉬 (disk cache ) 는 보통디스크에 저 장하는 정 보의 일부를 기 억 
기 ( RAM ) 에 저 장하여 이 후 이 정 보에 접 근할 때 더 는 느린 디 스크에 접 근하지 않고 빨 
리 처 리 하도록 하는 쏘프트웨 어 기 구이 다. 

등록부입구점캐쉬외 에도 Linux 에는 완충기캐쉬，폐지캐쉬 와 같은 디스크캐쉬 가 있 
는데 이것들에 대해서는 뒤에서 설명한다. 

3) VFS 가 처 리하는 체 계 호출 

표 2-1 은 파일 체 계，정 규파일 , 등록부，기 호련결을 대 상으로 하는 VFS 체 계 호출이 다. 
VFS 가 제공하는 iopermO , ioctl () , pipe () , mknodO 등 다른 체계 호출은 장치 
파일이나 관 ( pipe ) 을 대상으로 하므로 뒤에서 보기로 한다. 

VFS 가 제공하는 socket () , connect (), bind (), protocols () 등의 체계 호출은 소 
케트를 대상으로 하여 망기능을 실현한다. 

표 2-1 의 체계호출에 대응하는 핵심부봉사루린은 이 절과 3절에서 다룬다. 


표 2-1. _ VFS 가 처리하는 제계호출 


체계호출이름 

설명 

mount 0 umountO 

파일 체 계 탑재 /해 제 

sysfsO 

파일체계정보 얻음 

statfs () fstatfsO ustatO 

파일체계통계를 얻음 

chrootO pivot root () 

뿌리등록부 변경 

chdirO fchdirO getcwdO 

현재등록부 변경 

mkdirO rmdirO 

등록부생성과 삭제 

getdents () readdirO link () unlink () 
rename 0 

등록부입구점처리 

readlinkO symlinkO 

쏘프트련결 처리 

chown () fchown () IchownO 

파일소유자 변경 
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chmodO fchmodO utimeO 

파일속성 변경 

statO fstatO IstatO access () 

파일상태 읽음 

open () close OcreatO umaskO 

파일을 열고 닫음 

dupO dup 2 () fcntl () 

파일서술자 처리 

select () pollO 

비동기적입출력 알림 

truncate () ftruncate 0 

파일크기 변경 

lseek () llseek () 

파일지적자 변경 

read 0 write 0 readv 0 writev 0 sendfile 0 reada 

head () 

파일입출력 연산실행 

preadO pwriteO 

파일탐색과 접근 

mmap 0 munmap () mad vise () mincore 0 

파일 기억기배치처리 

fdatasyncO fsyncO syncO msyncO 

파일자료동기화 

flock () 

파일잠그기 처리 


앞에서 언급한바와 같이 VFS 는 응용프로그람과 특정파일체계사이의 계층이다. 

그러 나 어떤 경우에는 저수준처리를 호출하지 않고 VFS 가 독자적으로 파일연산을 
실행할수 있 다. 

례를 들어 프로쎄스가 열린 파일을 닫으려 할 때에는 디스크의 파일에 접근할 필요 
가 없이 VFS 에서 대응하는 파일객체를 해제한다. 

또한 lseekO 체계호출은 열린 파일과 프로쎄스의 호상작용과 관련한 속성인 파일지 
적자를 변경하는데 VFS 는 대응하는 파일객체를 변경하는 작업으로 충분하며 디스크파 
일을 접근할 필요가 없다. 

따라서 특정파일체 계의 처 리부를 호출할 필요도 없다. 

또 다른 의미로 보면 VFS 는 필요할 때에만 특정파일체계에 의존하는《일반적인》 
파일체계로 볼수 있다. 

2. VFS 자료구조 

매 VFS 객체는 객체속성과 객체메쏘드의 표에 대한 지적자로 이루어진 적절한 자료 
구조에 저장된다. 

핵 심부는 동적 으로 객체의 메 쏘드를 변경할수 있으며 특정객체 에 대 해 특수한 동작 
을 설 정할수도 있 다. 아래 에 VFS 객 체 와 이 것 들사이 의 관계 를 자세 히 설 명한다. 

1) 초블로크객체 

초블로크객체는 super _ block 구조체류형 으로 되 여 있으며 표 2-2 에서 설명 하는 마당 
을 포함한다. 
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표 2-2. 초블로크객체의 마당 


형 

마당 

설명 

struct list head 

s list 

초블로크목록의 지적자 

kdev t 

s dev 

장치 식별자 

unsigned long 

s blocksize 

블로크크기 (바이트단위) 

unsigned char 

s _ blocksize_bit 

s 

블로크크기 (비트단위) 

unsigned char 

s dirt 

변경된(불결한) 기발 

unsigned long long 

s maxbytes 

파일의 최대크기 

struct file system type * 

s type 

파일체계류형 

struct super operations * 

s_op 

초블로크조작지 적 자 

struct dquot operations * 

dq op 

디스크할당조작지적자 

struct quotactl ops 

s qcop 

초블로크할당조작지적자 

struct export operations 

s export op 

체 계 호출조작지 적 자 

unsigned long 

s flags 

탑재 기발 

unsigned long 

s magic 

파일체계식별부호 

struct dentry * 

s root 

랍재등록부의 등록부입구점 객체 

struct rw scmaphore 

s umount 

탑재해제를 위한 신호기 

sruct semaphore 

s lock 

초블로크잠그기 

int 

s count 

참조계 수기 

atomic t 

s active 

2차 참조계수기 

struct list head 

s dirty 

변경된 i 마디목록 

struct list_head 

s _ locked_inode 

s 

I / O 에 관련된 i 마디목록 

struct list head 

s files 

초블로크에 할당된 파일객체 목록 

struct block device * 

s bdev 

블로크장치구동기서술자의 지적자 

struct list_head 

s_instances 

해당 파일체계류형의 초블로크객체 
목록의 지적자 

struct 

quota mount op 社 ons 

s_dquot 

디스크할당선택항목 

union 

u 

특정파일체계정보 


모든 초블로크객체(탑재된 파일체계마다 하나씩)는 원형2중련결목록 (circular 
double linked list ) 으로 련결되 여있 다. 
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super_blocks 변수가 목록의 처음 요소를 나타내며 초블로크객체의 s_list 마당에는 
목록에 린접 한 요소의 지적자가 있다. 

sb_lock 스핀 잠그기 는 다중처 리 기 (multi-processor) 체 계 에 서 목록에 동시 에 접 근하 
는것을 막는다. 

마지막 u 공용체 (union) 마당은 특정파일체계에 속한 초블로크정보를 포함한다. 

례를 들어 초블로크객체가 Ext2 파일체계를 가리키는 경우 이 마당에 ext2_sb_info 
구조체를 저장한다. 

이 구조체에는 디스크할당비트마스크 등 VFS 공통파일모형과 관계없는 기 타 정보를 
저장한다. 

일반적으로 u 마당의 정보는 효률을 높이기 위해 기억기에 복제된다. 모든 디스크기 
반의 파일체계는 디스크블로크를 할당하고 해제하기 위해 할당비트배치표를 읽고 변경해 
야 한다. 

VFS 는 이 파일체계들이 디스크에 접근하지 않고 기억기에 있는 초블로크의 u 공용 
체마당을 직접 사용하도록 한다. 

그러나 이 접근방법은 새로운 문제를 일으킨다. 

VFS 초블로크가 디 스크의 대 응하는 초블로크와 더 는 동기 화되 지 (synchronized) 
않을수도 있다. 

이것을 해결하기 위해 s_dirt 기발을 도입하여 초블로크가 불결한 (dirty) 지，즉 디스 
크의 자료를 갱신해야 하는지를 표시한다. 

동기화가 취약하면 사용자에게 체계를 지운 상태로 끌 (Shutdown) 기회를 주지 않 
고 갑자기 전원이 꺼진 경우 파일체계가 파괴되는 문제가 발생한다. 

Linux 는 주기적으로 모든 불결한 초블로크를 디스크에 기록함으로써 이 문제를 최 
소화한다. 

초블로크와 관련한 메쏘드를 초블로크연산 (superblock opera 社 on) 이라고 한다. 
super_opera 仕 ons 구조체로 이것을 표현하며 구조체의 주소는 s_op 마당에 저장되여 있다. 

매개의 특정파일체계는 자기의 초블로크연산을 정의할수 있다. 

VFS 가 초블로크연산중 하나를 호출해야 할 때 실례로 read_inode() 를 호출할 때에 
는 다음과 같이 실행한다. 

sb->s_op->read_inode (inode) : 

여기서 sb 는 초블로크객체주소를 저장하고있고 s_op 는 super_operations 구조체 
객체주소를 가르킨다. 

s_op 의 read_inode 마당은 적절한 함수의 주소를 포함하므로 즉시 호출된다. 

개별적인 조작들은 다음과 같다. 

alloc_inode (struct super_block *sb) 
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새로운 inode 를 할당한다. 此는 해 당 파일체계의 초블로크객체를 가르킨다. 
read_inode (inode) 

디 스크에서 정 보를 읽어서 inode 가 가리키는 i 마디객체의 마당을 채 운다. 
i 마디객체의 i_ino 마당값은 디스크에서 읽을 특정파일체계 i 마디를 나타낸다. 
dirty _inode (inode) 

i 마디가 변경되였음을 표시할 때 호출된다. ReiserFS 와 Ext3 와 같은 파일체계에서 
디스크의 파일체계기록을 변경하기 위해서 사용한다. 
writejnode (inode, flag) 

inode 가 나타내 는 i 마디 객 체 내 용으로 파일체 계 i 마디 를 갱 신한다. 
i 마디객체의 i_ino 마당값은 갱신하려는 파일체계 i 마디를 나타낸다. 
flag 변수는 I/O 연산이 동기적 (synchronous) 인가를 나타낸다. 
put_inode (inode) 

inode 가 나타내는 i 마디객체를 해제한다. 

다른 프로쎄스가 이 객체를 여전히 사용하고있을수도 있으므로 객체를 해제하는 작 
업이 반드시 기억기변환을 의미하지는 않는다. 
dropjnode (inode) 

inode 가 나타내는 i 마디객체를 해제한다. 

다른 프로쎄스가 이 객체를 여전히 사용하는 중이면 이 조작은 실패한다. 
delete_inode (inode) 

파일，디스크 i 마디 , YFS i 마디 를 포함한 자료블로크를 삭제 한다. 
put_super (super) 

변수로 넘 져 준 주소의 초블로크객 체 를 해 제 한다. (대 응하는 파일 체 계 를 랍재 해 제 한 
경우이다.) 

write_super (super) 

지정한 객체내용으로 파일체계의 초블로크를 갱신한다. 
write_super_lockfs (super) 

파일체계에 대한 변경을 차단하고 변수로 넘겨준 값을 사용하여 초블로크를 변경한다. 
기 록형파일 체 계 가 이 메 쏘드를 실 현해 야 하며 론러 볼름관리 자 (LVM, Logical 
Volume Manager) 구동프로그람이 호출해 야 한다. 현재는 사용되지 않는다. 
unlockfs (super) 

우의 초블로크 메쏘드 write_super_lockfs 가 파일체계변경을 차단한것을 취소한다. 
statfs (super, buf, bufsize) 

파일체계의 통계정보를 buf 완충기 에 기록한다. 
remount_fs kuper, flags, data) 

새 로운 항목으로 파일체계를 다시 탑재 한다. (탑재 항목을 변경 해 야 할 때 사용한다. ) 
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clearjnode (inode) 

putjnode 와 비슷하지만 i 마디가 나타내는 파일의 자료를 포함한 모든 폐지를 해제 
한다. 

umount_begin (super) 

지정한 i 마디 에 대해 탑재 해제 연산을 시 작했으므로 탑재 연산을 중단한다. (망파일체 
계에서만 사용한다.) 

show_options (seq_file, vfsmount) 

파일체계의 항목을 표시하기 위해 사용한다. 

우의 조작들은 모든 파일체계류형 에 대해서 정의되여있다. 그러 나 특정파일체 계 에는 
실제로 이들중 일부만 사용할수 있다. 

실례로 smb 파일체 계의 초블로크조작구조체 는 다음과 같이 정의되 여 있 
다. (linux/fs/smMs/inode.c 에 정의) 

static struct super_operations smb_sops = 

{ 

. allocjnode = smb_al locjnode, 

. destroy _inode = smb_destroy_inode, 

. dropjnode = generic_delete_inode, 

. delete_inode= smb_delete_inode, 

. put_super = smb_put_super, 

. statfs = smb_statfs, 

. show_options = smb_show_options, 

. remount_fs = smb_remount, 

}； 

나머지 조작들은 정의되지 않으며 일부 조작들은 일반 (generic_X_X) 조작으로 정의 
되여 있다. 

일반조작은 모든 파일체계 에 대 하여 공통적 인 조작들로서 VFS 안에 정의되 여있다. 
초블로크를 읽는 read_super 메쏘드를 정의하지 않았다는 사실에 주목하자. (아직 
디 스크에 서 읽어 오지 도 않은 객 체 의 매 쏘드를 핵심부가 어떻 게 호출할수 있는가? 
read_super 메쏘드는 과일체계류형을 서술하는 객체 에 정의되 여 있다.) 

2) i 마디객체 

파일체 계 가 파일을 다루는데 필요한 모든 정 보는 i 마디 라는 자료구조에 들어있 다. 
(linux/include/linux/fs.h 에 정의) 

파일명은 림시로 할당한 이름표 같은것으로서 언제 나 변경할수 있다. 

그러나 i 마디는 각 파일에 유일하며 파일이 존재하는 동안 그대로 남아있다. 
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기억기에 있는 i 마디객체는 inode 구조체로 이루어지는데 표 2-3 에서 이 구조체의 
마당을 설명한다. 


표 2-3. _ itlK : 阿■思~ 


형 

마 당 

설 명 

struct list head 

i hash 

하쉬목록지적자 

struct list-head 

i list 

i 마디목록지적자 

struct list head 

i dentry 

등록부입구점목록지적자 

unsigned long 

i ino 

i 마디 번호 

nusigned int 

i count 

사용계수기 

kdev t 

i dev 

장치 식별자 

umode t 

i mode 

파일류형과 접근권한 

nlink t 

i nlink 

하드련결수 

uid t 

i uid 

소유자식별자 

gid t 

i gid 

그룹식별자 

kdev t 

i rdev 

실제장치식별자 

xoff t 

i size 

파일길 이 ( B 단위) 

time t 

i atime 

최종파일접근시간 

time t 

i mtime 

최종과일기록시간 

time t 

i ctime 

최종 i 마디변경시간 

unsigned int 

i blkbits 

블로크크기 ( bit 단위 ) 

unsigned long 

i blksize 

블로크크기 ( B 단위 ) 

unsigned long 

i blocks 

파일의 블로크수 

unsigned long 

i_version 

판본번호, 사용후 자동으로 

증가 

struct semaphore 

i sem 

i 마디신호기 

struct semaphore 

i_zombie 

i 마디제거나 i 마디의 이름을 
바물 때 사용하는 2차 i 마디 

struct inode operations * 

Lop 

i 마디 연산 

struct file operations * 

i fop 

기본파일연산 

struct super block * 

i sb 

초블로크객 체 의 지 적 자 

wait qucuc head t 

i wait 

i 마디 대기렬 

struct file lock * 

i flock 

파일잠그기목록지적자 

struct address _ spacc * 

i_mappingaddr 

객체지 적자 
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ess space 


struct address _ spacc * 

i_data 

블로크장치과일에 대한 add 
ress space 객 체 

struct dquot * 

Ldquot 

i 마디 디 스크할당 

struct list 一 head 

i_devices 

블로크장치 파일 i 마디 목록의 
지적자 

struct pipe inode info * 

Lpipe 

파일이 관일 때 사용 

struct block device * 

i bdev 

블로크장치구동기지적자 

struct char devece * 

i cdev 

문자장치 구동기 지 적 자 

unsigned long 

i _ dnotify_mask 

등록부알림사건의 비 트마스 

크 

struct dnotify struct * 

i dnotify 

등록부알림에 사용됨 

unsigned long 

i state 

i 마디상태기발 

unsigned int 

i flags 

파일 체 계 탑재 기 발 

unsigned char 

i sock 

파일이 소케트이면 참 

atomic_t 

i_writecount 

쓰기중인 프로쎄스 사용계 

수기 

unsigned int 

i attr flags 

파일생성기발 

_ u 32 

i_gene ration 

i 마디판본번호(일부 파일체 
계에서 사용) 

union 

u 

특정 파일체계 정보 


마지 막 u 공용체 마당은 특정 파일체 계 에 속하는 i 마디정보를 저장하기 위 해 사용한다. 
례를 들어 i 마디객체가 Ext 2 파일을 가리키는 경우 이 마당은 ext 2_ inode _ info 구조 
체를 저장한다. 

매 i 마디객체는 디스크 i 마디안에 포함된 일부 자료(례를 들면 파일에 할당된 블로크 
개수)를 증복하여 포함하고있다. 

i_state 마당값이 I _ DIRTY _ SYNC ， I _ DIRTY_DATASYNC 또는 I _ DIRTY _ 
PAGES 와 같은 경우 해당 i 마디는 불결한것으로 된다. 

따라서 대응하는 디스크 i 마디를 반드시 갱신해야 한다. 

I _ DIRTY 마크로를 사용하여 이 세 경우의 여부를 한번에 검사할수 있다. 
i _ state 마당은 I _ LOCK ( i 마디가 I 八3전송에 사용되고있음)과 I _ FREEING ( i 마디객체 
해제중)， I _ CLEAR ( i 마디객체 가 더는 의미없음) 등 다른 값일수도 있다. 

매 i 마디객체는 다음과 같은 원형2중련결목록중 하나에 언제나 포함된다. 
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> 유효하며 사용하고있지 않은 i 마디목록: 유효한 디스크 i 마디의 내용을 담고있지 

만 현재 이 i 마디를 사용하고있는 프로쎄스는 없다. 이 i 마디는 불결한것이 아 
니며 i_count 마당의 값은 0이다. 이 목록의 처음과 마지막요소는 

inode _ unused 변수의 next , prev 마당을 참조한다. 

이 목록은 디스크캐쉬로 동작한다. 

> 사용중인 i 마디목록: 유효한 디스크 i 마디의 내용을 담고있으며 현재 어떤 프로 
쎄스가 사용하고있다. 

i 마디는 불결한것 이 아니며 i _ count 마당의 값은 정수이 다. 목록의 처음과 마 
지막요소는 inode _ in _ use 변수로 참조한다. 

> 불결한 i 마디목록: 목록의 처음과 마지막요소는 대응하는 초블로크객체의 
s _ dirty 마당으로 참조한다. 

우의 목록항목은 매 i 마디객체의 ijist 마당으로 서로 련결된다. 
i 마디객체는 inode _ hashtable 이라는 하쉬표에도 포함된다. 

하쉬표는 핵심부가 i 마디번호와 해당 파일을 포함한 파일체계에 대응하는 초블로크 
객체주소를 알고있을 때 i 마디객체를 찾는 검색속도를 빠르게 해준다. 

하쉬법은 충돌을 일으킬수 있으므로 i 마디객체는 갈은 위치로 하쉬하는 다른 i 마디 
를 가러키는 정 방향지적 자를 가지는 ijiash 마당을 포함한다. 

이 마당은 갈은 위치로 하쉬되는 i 마디의 2중련결목록을 구성한다. 하쉬표는 초블로 
크에 할당되지 않는 i 마디(소케트가 사용하는 i 마디와 같은 경우)의 특별한 련결목록도 
포함한다. 

이 목록의 처음과 마지막요소는 anon _ hash _ chain 변수로 참조한다. 
i 마디객체와 관련한 메 쏘드를 《 i 마디연산 (inode operation ) ) 이라고 한다. 
i 마디 연산은 inode _ operations 구조체로 표현하며 i _ op 마당에 주소를 넣 는다. 
( linux / incude / linux / fs . h ) 

다음은 inode _ operations 표에 렬거된 inode 조작을 서술한것이다. 
create ( dir , dentry , mode ) 

새로운 정규파일을 위한 디스크 i 마디를 생성하여 주어진 등록부에서 등록부입구 
점객체와 련결한다. 
lookup ( dir , dentry ) 

등록부입구점객체의 파일명 에 대응하는 i 마디 를 등록부내 에서 탐색 한다. 
link ( old _ dentry , dir , new _ dentry ) 

dir 등록부내에서 old _ dentry 가 나타내는 파일을 가리키는 새로운 하드련결을 
생성 한다. 
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새로운 하드련결은 new _ dentry 에 지정한 파일명을 사용한다. 
unlink ( dir , dentry ) 

등록부입구점객체가 지정 한 파일의 하드련결을 등록부에서 삭제 한다. 
symlink ( dir , dentry , symname ) 

새로운 기호련결을 위한 i 마디를 생성하여 주어진 등록부에서 등록부입구점객체 
와 련결한다. 

mkdir ( dir , dentry , mode ) 

새로운 등록부를 위한 i 마디를 생성하여 주어진 등록부에서 등록부입구점객체와 
련결 한다. 

rmdir ( dir , dentry ) 

등록부입구점 객 체의 파일명 과 갈은 보조등록부를 주어 진 등록부에서 제거 한다. 
mknod ( dir , dentry , mode , rdev ) 

새로운 특수파일을 위한 i 마디를 생성하여 주어진 등록부에서 등록부입구점객체 
와 련결한다. 

mode 와 rdev 변수에 각각 파일류형과 장치의 주번호 (major number ) 를 지정 한다. 
rename ( old _ dir , old _ dentry , new _ dir , new _ dentry ) 

old _ entry 가 나타내는 파일을 old _ dir 등록부에서 new _ dir 등록부로 이동한다. 

새 파일명은 new _ dentry 가 가러키는 등록부입구점 객체 에 들어있다. 
readlink ( dentry , buffer , buflen ) 

등록부입구점이 지정한 기호련결에 대응하는 파일경로명을 buffer 가 가리키는 
기억기령역에 복사한다. 
follow_link ( inode , dir ) 

i 마디객체가 지정하는 기호련결을 변환한다. 기호련결이 상대경로명이면 지정된 
등록부에서 탐색 연산을 시 작한다. 
truncate ( inode ) 

i 마디가 지정하는 파일의 크기를 변경한다. 이 메쏘드를 호출하기 전에 새로운 
파일 크기 값을 i 마디 객 체 의 i _ size 마당에 설 정해야 한다. 
permission ( inode , mask ) 

i 마디가 지정하는 파일에 지정한 접근방식이 허용되는지 검사한다. 
revalidate ( dentry ) 

등록부입구점 객체 가 지정 하는 파일의 캐쉬되 여 있던 속성 을 갱 신한다. (일반적 으 
로 망파일 체 계 에 서 호출한다. ) 
setattr ( dentry , la 竹 r ) 

i 마디속성을 설정하고 변경사건을 발생시킨다. 
getattr ( dentry , iattr ) 
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망파일체계에서 캐쉬된 i 마디속성값을 새로 읽어야 함을 알리는데 사용한다. 
우에서 설명한 메쏘드는 모든 i 마디와 파일체계류형에서 정의된다. 

그러나 특정 i 마디와 파일체계에서는 이중 일부만 실제로 사용할수 있다. 

실현되 지 않은 메 쏘드에 대 응하는 마당값은 NULL 로 설정한다. 

3) 파일객체 

파일객 체는 프로쎄스가 열린 파일과 어 떻게 호상작용하는지 나타낸다. 

이 객체는 파일을 열 때 생성되며 file 구조체로 구성된다. 
( linux / include / linux / fs.h 에 정의) 

표 2-4 에서는 file 구조체마당을 설명한다. 

파일객체는 디스크에 대응하는 영상이 없으며 따라서 file 구조체에는 파일객체변경 
여부를 나타내는 불결한 마당이 없다. 


표 2-4. _ 立 f 일객체의 am 


형 

마 당 

설 명 

struct list head 

f list 

일반적인 파일객체목록의 지시자 

struct dentry * 

f dentry 

파일에 관련된 등록부입구점객체 

struct vfsmount * 

f vfsmnt 

파일을 포함하는 탑재된 파일체계 

struct file operations * 

f op 

파일연산표의 지시자 

atomic t 

f count 

파일객체의 사용계수기 

unsigned int 

f flags 

파일을 열 때 지정된 기발 

mode t 

f mode 

프로쎄 스접 근방식 

loff t 

f pos 

현재과일편위 (파일지시자) 

unsigned long 

f reada 

미 리 읽 기 기 발 

unsigned long 

f ramax 

미리읽기폐지의 최대수 

unsigned long 

f raend 

마지 막미 리 읽기후 파일지시 자 

unsigned long 

f ralen 

미 리 읽 기 바이 트수 

unsigned long 

f rawin 

미리읽기페지수 

struct fown_struct 

f_owner 

신호를 통한 비동기적입출력을 위 
한 자료 

unsigned int 

f uid 

사용자 UID 

unsigned int 

f gid 

사용자 GID 

int 

f error 

망쓰기 연산을 위 한 오유코드 

unsigned long 

〔version 

판본번호，매번 사용후 마다 자동 

증가 
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void * 

rivate datatty 

장치 구동프로그람용으로 필 요 

struct kiobuf * 

f iobuf 

직접접근완충기를 위한 서술자 

long 

f _ iobuf_lock 

직접 I / O 전송을 위한 잠그기 


파일객 체 에 저 장하는 가장 중요한 정 보는《 파일지 적 자 (file pointer ) 》이 다. 

파일지적자는 파일에서의 현재 위치를 나타내며 이곳에서 다음 연산이 실행된다. 

여러 프로쎄스가 같은 파일에 동시에 접근할수 있기때문에 파일지적자를 i 마디객체 
에 저장할수는 없다. 

매 과일객체는 언제 나 다음 원형2중련결목록중 하나에 들어간다. 

> 사용중이 아닌 ( unused ) 파일객체목록: 이 목록은 파일객체의 기억기캐쉬로, 
그리 고 초사용자를 위 해 예 약된 공간으로 동작한다. 

이 공간을 사용하여 초사용자는 체계의 동적기억기를 전부 사용하였다 하 
더라도 파일을 열수 있다. 

객체가 사용중이 아니므로 f_count 마당값은 0이다. 

목록의 첫번째 요소는 허 수아비 ( dummy ) 이 며 freejist 변수에 주소가 저 
장되 여 있 다. 

핵심부는 목록이 요소를 최소한 NR _ RESERVED _ FILES 객체의 값만큼 
저장하고있도록 한다. 

이 값은 일반적으로 10이다. 

> 사용중이며 초블로크에 할당되지 않은 파일객체의 목록: 목록내에 있는 매 요소 
의 f _ count 마당은 1로 설정된다. 

목록의 첫 번째 항목은 허 수아비 이 고 anon _ list 변수에 저 장되 여 있 다. 

> 사용중이며 초블로크에 할당된 파일객체의 목록: 매 초블로크객체는 s _ files 마 
당에 파일객체목록의 첫번째 요소를 저장한다. 따라서 서로 다른 파일체 계 에 속 
한 과일의 파일객체는 서로 다른 목록에 저장된다. 목록내에 있는 매 요소의 
f _ count 마당은 파일객체를 사용중인 프로쎄스수의 합+1로 설정된다. 

파일객체가 어떤 순간에 어느 목록에 있든 목록의 이전 항목과 다음 항목을 가리키 
는 지적자는 파일객체의 f _ list 마당에 저장된다. 

files _ lock 신호기는 다중처리기체계에서 목록에 동시에 접근하는것을 방지한다. 

사용중이 아닌 파일객체목록의 크기는 files _ stat 변수의 nr _ free_files 마당에 저장 
한다. 

VFS 는 새로운 파일객체를 할당할 때 get _ empty _ filp () 함수를 호출한다. 
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이 함수는《 사용중이 아닌》목록이 NR_RESERVED_FILES 값보다 많은 항목을 
포함하고있는지 검사하여 더 많은 항목이 있다면 이중 하나를 새로 연 파일에 사용한다. 
그렇 지 않으면 일 반적 인 기 억 기할당으로 대 체한다. 

files_stat 변수에 는 nr_files 마당(모든 목록에 포함되 여있는 파일객 체 의 수)와 
max_files 마당(할당될수 있는 최대파일객체의 수 즉 체계에서 동시에 접근할수 있는 파 
일의 수)도 있다. 

《공통파일모형》에서 설명한바와 같이 매 파일체계에는 파일읽기쓰기와 갈은 작업을 
위 한 자신만의 파일 연산 (file operation) 집 합을 포함한다. 

핵심부는 i 마디를 디스크에서 기억기로 적재할 때 파일연산에 대한 지적자를 
幻 le_operations 구조체 에 저 장한다. 

이 구조체의 주소는 i 마디 객체의 i_fop 마당에 저장한다. 프로쎄스가 과일을 열 때 
VFS 는 i 마디에 저장한 주소로 새로운 파일객체의 f_op 마당값을 초기화하여 이후 파일 
연산에 대해 호출할 때 이 함수를 사용할수 있도록 한다. 

필요하다면 VFS 는 새로운 값을 f_op 에 저장하여 파일연산집합을 변경할수도 있다. 
다음으로 file_operations 표에 렬거되 여있는 파일조작들을 설명 한다. 
llseek(file, offset, origin) 

파일지적자를 갱신한다. 
read (file, buf, count, offset) 

파일에서 *o 打 set 위치부터 count 바이트만큼 읽는다. *offset 값 (일반적으로 파 
일지적자에 대응)이 증가한다. 
write (file, buf, count, offset) 

count 바이트만큼 파일의 *o 打 set 위치에 쓴다. *offset 값(일반적으로 파일지적자 
에 대응)이 증가한다. 
readdir(dir, dirent, filldir) 

dirent 에 다음 등록부항목을 반환한다. filedir 변수는 등록부입구점 내 마당을 추 
출하는 보조함수의 주소를 포함한다. 
poll (file, poll_table) 

파일에 어떤 활동이 있는지 검사하고 어떤 동작이 발생할 때까지 다시 잠든다. 
ioctl (inode, file, cmd, arg) 

하드웨어장치에 명령을 전송한다. 이 메쏘드는 장치파일에만 사용할수 있다. 
mmap(file, vma) 

파일에서 프로쎄 스의 주소공간으로 기 억기배 치를 수행 한다. 
open (inode, file) 

새로운 파일객체를 생성하여 파일을 열고 이것을 지정한 i 마디객체에 련결한다. 
flush (file) 
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열린파일에 대한 참조를 닫을 때 즉 파일객체의 f _ count 마당값이 감소할 때 호 
출한다. 

이 메쏘드가 실제 수행 하는 작업은 파일체계 에 따라 다르다. 
release ( inode , file ) 

파일객체를 해제한다. 열린 파일에 대한 마지막참조를 닫을 때 즉 파일객체의 
f _ count 마당값이 0이 될 때 호출한다. 
fsync ( file , dentry ) 

파일의 완충기억된 모든 자료를 디스크에 기록한다. 
fasync ( fd , file , on ) 

신호를 통해 비동기적으로 입출력을 알리는 일을 활성화/비활성화한다. 
lock ( file , cmd , file _ lock ) 

파일에 잠그기를 적용한다. 
readv ( file , vector , count , offset ) 

파일에서 자료를 읽어서 vector 가 나타내는 여러 완충기에 나누어 저장한다. 완 
충기의 수는 count 에 저장한다. 
writev ( file , vector , count , offset ) 

vector 가 나타내는 여러 완충기의 자료를 파일에 기록한다. 완충기의 수는 
count 에 지정한다. 

sendpage ( file , page , offset , size , pointer , fill ) 

지정한 파일에서 다른 파일로 자료를 전송한다. 이 메쏘드는 소케트에서 사용한다. 
get _ unmapped _ area ( file , addr , len , offset , flags ) 

파일배 치를 위해 아직 사용되지 않은 주소범위를 엄는다.(흐레임완충기기 억기배 
치에 사용된다.) 

우의 메쏘드는 모든 파일류형에 정의되여있다. 

그러나 특정 파일류형 에는 이것들중 일부만 실제 사용할수 있다. 

실현하지 않은 메쏘드에 대응하는 마당값은 NULL 이 다. 

4) 등록부입구점객체 

《공통파일모형》에서 언급한바와 같이 VFS 는 매 등록부를 파일내용으로서 등록부 
목록이 들어있는 일반 파일로 간주한다. 

등록부입구점을 기억기로 읽어온 다음에 VFS 는 이 등록부입구점을 dentry 구조체 
의 등록부입구점객체로 변환한다. 

표 2-5 에서 이 구조체의 마당을 설명한다. 핵심부는 프로쎄스가 탐색하는 경로명의 
모든 구성 요소에 대 해 등록부입구점객체 를 만든다. 등록부입구점 객체는 각 구성 요소를 
대응하는 i 마디와 련결해춘다. 례를 들어 / tmp / test 경로명을 탐색 할 때 핵심부는 뿌리 
등록부 /를 위해 첫번재 등록부입구점객체，뿌리등록부내에 있는 tnip 입구점을 위해 두 


64 


透資邊 @資變©^ 


체 2 장. 


번째 등록부입구점객체， / tmp 등록부내에 있는 test 입구점을 위해 세번째 등록부입구점 
객체를 만든다. 


표 2-5. _ 등록부입?점객제 □( 당 


형 

마 당 

설 명 

atomic t 

d count 

등록부입 구점 객 체 사용계 수기 

unsigned int 

d flags 

등록부입 구점 기 발 

struct inode * 

d inode 

파일이름과 관련한 i 마디 

struct dentry * 

d parent 

부모등록부의 등록부입구점객체 

struct list head 

d hash 

하쉬표입 구점내 목록지 시 자 

struct list head 

d lru 

사용되지 않는 목록지시자 

struct list_head 

d_child 

부모등록부에 포함된 등록부입구점객체목 
록의 지시자 

struct list_head 

d_subdirs 

등록부의 경우 보조등록부의 등록부입구 

점 객 체 지 시 자 

struct list head 

d alias 

관련 i 마디 (별명 )목록 

int 

d_mounted 

등록부입구점이 파일체계를 위한 탑재위 
치일 때 에만 1로 설정되는 기 발 

struct qstr 

d name 

파일이름 

unsigned long 

d time 

d revaliadte 메쏘드에서 사용 

struct dentry_opera 

tions * 

d_op 

등록부입구점메쏘드 

struct super block * 

d sb 

파일의 초블로크객체 

unsigned long 

d vfs flags 

등록부입구점캐쉬기발 

void * 

d fsdata 

파일체계에 따른 자료 

unsigned char * 

d_iname 

짧은 파일이름공간 


디 스크에 는 등록부입 구점 객 체 에 대 응하는 영 상이 없 다. 

따라서 dentry 구조체에는 객체가 변경되였다는 사실을 나타내는 마당이 없다. 
dentry _ caclie 라는《 스랩 할당자캐 쉬 (slab allocator cache ) 》에 등록부입 구점 객 
체를 저장한다. 

kmem _ cache _ alloc () 와 kmem _ cache _ free () 를 호출하여 등록부입구점객체를 생성, 
제거 한다. 

각 등록부입구점객체는 다음 4개의 상태가운데서 하나에 해당한다. 
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4 해제 ( free ) 

이 등록부입구점객체는 의미있는 정보를 담고있지 않으며 VFS 가 사용하고있지 
않다. 

대 응하는 기 억 기 령 역 은 스랩 할당자 (slab allocator ) 가 관리 한다. 

4 사용중이 아님 ( unused ) 

이 등록부입구점객체는 핵심부에서 사용하지 않고있다. 객체의 d _ count 사용계 
수기는 0이다. 

그러나 d _ inode 마당은 아직 관련 i 마디를 가러키고있다. 등록부입구점객체는 유효 
한 정보를 포함하지만 만약 기 억기를 회수할 필요가 있다면 내용을 삭제할것 이 다. 

4 사용중 (in use ) 

이 등록부입구점 객체는 핵 심부에서 사용하고있 다. d _ count 사용계 수기는 정수이 
고 djnode 마당은 관련 i 마디객체를 가리키고있다. 등록부입구점객체는 유효한 정보 
를 담고있으며 이것을 제거할수 없다. 

-4 negative 

이 등록부입구점에 대응하는 i 마디가 더는 존재하지 않는다. 대응하는 디스크 i 마 
디가 삭제되였거나 존재하지 않는 파일의 경로명을 처리하면서 생성된 등록부입구점 
이 기 때 문이 다. 

등록부입구점 객 체의 djnode 마당은 null 로 설정 된다. 그러 나 등록부입구점객 체 
는 계속 등록부입구점캐쉬에 남아 같은 파일경로명에 대해 람색연산을 빠르게 처리 
할수 있도록 한다. 

부수 ( negative ) 라는 용어와는 달리 어떤 부수와도 관계가 없다. 

4- 등록부입구점패쉬 

디스크에서 등록부입구점을 읽어서 이 에 대 응하는 등록부입구점 객체를 생성 하는 일 
은 상당한 시간이 걸리기때문에 사용을 끝낸 다음에도 다시 사용할것은 등록부입구점객 
체를 계속 기 억기 에 유지하는것 이 도움이 된다. 

례를 들어 사용자는 파일을 편집하고 파일을 콤파일한 다음 다시 편집하고 인쇄하거 
나 복사하고 복사한 파일 을 편집한다. 

이러한 경우 동일한 파일에 반복하여 접근하게 된다. 

Linux 는 등록부입구점을 처리하는 효률을 최대로 높이기 위해 등록부입구점캐쉬를 
사용하는데 이것은 두가지 자료구조로 구성되여있다. 

> 사용중, 사용중이 아님 또는 negative 상태에 있는 등록부입구점 객체집합 

> 주어진 등록부와 파일명으로부터 이에 대응하는 등록부입구점객체를 얻기 위한 
하쉬표를 일반적 으로 요청한 객체가 등록부입구점캐쉬 에 들어있지 않은 경우, 
하쉬 함수는 null 값을 반환한다. 

등록부입구점캐쉬는 《 i 마디캐쉬 (inode cache ) 》에 대한 조종기역할도 한다. 사용 
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중이 아닌 등록부입구점 에 대 응하는 핵 심부기 억기의 i 마디 인 경우，등록부입구점캐쉬 가 
계속 사용하고있으므로 제거되지 않는다. 따라서 i 마디객체는 읽기쓰기기억기 ( RAM ) 에 
남아있고 대응하는 등록부입구점을 통해 빠르게 참조할수 있다. 

《사용중이 아닌》등록부입구점은 2중련결목록인 《가장 오래전에 사용한 ( LRU , 
Least Recently Used ) ) 목록에 삽입 시 간순서 대 로 저 장한다. 

바꿔 말하면 가장 후에 해제한 등록부입구점객체가 목록의 맨앞에 들어가며 사용한 
지 가장 오래된 등록부입구점객체일수록 목록의 끝에 위 치 한다. 

핵심부는 등록부입구점캐쉬의 크기를 줄여야 할 때 목록끝부분부터 요소를 제거하며 
최근에 사용한 객체들은 유지한다. LRU 목록의 처음과 마지막요소의 주소는 
dentry _ unused 변수의 next 와 prev 마당에 각각 저장된다. 

등록부객체의 d _ lru 마당은 목록내의 린접한 등록부입구점 의 지적자를 포함한다. 

《사용중》인 등록부입구점객체는 대응하는 i 마디객체의 i _ dentry 마당이 나타내는 2 
중련결목록에 삽입된다. (매 i 마디는 여러 하드련결을 가질수 있으므로 목록이 필요하다.) 

등록부입구점객체의 d _ alias 마당은 목록내의 린접한 항목을 가리킨다. 

두 마당은 struct list _ head 형태이다. 대응하는 파일에 대한 마지막하드련결이 삭 
제 되 면《 사용중》인 등록부입 구점 객 체 는《 negative 》상태 가 된 다. 

이 경우 등록부입구점객체는《사용중이 아닌》등록부입구점객체의 LRU 목록으로 
이동한다. 

핵심부가 등록부입구점캐쉬크기를 줄일 때 《 negative 》 인 등록부입구점은 점차 
LRU 목록의 끝으로 이동하여 점차적으로 해제된다. 

dentry _ hashtable 배 렬을 사용하여 하쉬 표를 실현한다. 

각 항목은 하쉬함수를 거치면 갈은 하쉬표값으로 하쉬되는 등록부입구점들의 목록을 
가리키는 지적자이다. 

배렬의 크기는 체계의 기억기용량에 따라 다르다. 등록부입구점객체의 d _ hash 마당 
은 하쉬값이 갈은 목록의 린접항목에 대한 지적자를 포함한다. 

하쉬 함수는 등록부와 파일 명 의 등록부 입 구점 객 체 주소 두개 로부터 하쉬 값을 생 성 한다 . 

dcache _ lock 스핀잠그기 는 다중처 리 기체계 에서 등록부입 구점캐쉬 자료구조에 대 한 
동시접근을 방지한다. 

d _ lookup () 함수는 변수의 등록부입구점객체와 파일명에 대해 하쉬표를 탐색한다. 

등록부입구점객체 에 관련된 메 쏘드를 등록부입구점 연산 (dentry opera 社 on ) 이 라고 
한다. 

이것들은 dentry _ operations 구조체 로 표현하며 주소는 d _ op 마당에 있 다. 

어떤 파일체계는 독자적인 등록부입구점메쏘드를 정의하기도 하지만 마당값은 대개 
NULL 이며 이 경우 VFS 는 이 것들을 기 본함수로 대체 한다. 

등록부입 구점 조작의 구조체 를 보여 준다. 
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( linux / inlcude / linux / dcache . h 에 정의) 

다음은 dentry _ operations 표의 순서 대로 메 쏘드를 렬거한것 이다. 
d_revalidate ( dentry , flag ) 

파일경 로명을 변환하기 위해 등록부입구점객체 를 사용하기 전에 등록부입구점객 
체가 아직도 유효한지 결정한다. 

기본 VFS 함수는 아무일도 하지 않지만 망파일체계의 경우에 자신의 함수를 지 
정할수도 있 다. 
d_hash ( dentry , name ) 

하쉬값을 생성한다. 이 함수는 등록부입구점하쉬표에 사용되며 파일체계마다 독 
자적인 하쉬 함수이다. 

dentry 변수는 구성요소를 포함하는 등록부를 나타낸다. name 변수는 탐색하려 
고 하는 경로명구성요소, 하쉬 함수가 생성 하는 값을 포함하는 구조체를 가리킨다. 
d _ compare ( dir , namel , name 2) 

두 파일명을 비교한다. namel 은 반드시 dir 가 가리키는 등록부에 속해 야 한다. 
기본 VFS 함수는 단순문자렬비교함수이 다. 그러 나 매 파일체계는 자체의 방법으 
로 이 메쏘드를 실현할수 있다. 

례를 들어 MS - DOS 는 대소문자를 구별하지 않는다. 
d_delete ( dentry ) 

등록부입구점객체에 대한 마지막참조가 삭제되면 ( d _ count 가 0이 될 때) 호출한다. 
기본 VFS 함수는 아무일도 하지 않는다. 
d_release ( dentry ) 

등록부입구점 객체를 해제할 때(스램 할당자에 반납) 호출한다. 기 본 VFS 함수는 
아무일도 하지 않는다. 
d_iput ( dentry , ino ) 

등록부입구점객체가 《 negative 》 가 될 때 즉 i 마디를 잃을 때 호출한다. 

기본 VFS 함수는 i 마디객체를 해제하기 위해 iputO 를 호줄한다. 

3. 프로쎄스관련파일 

앞에서 매 프로쎄스는 자신의 현재 작업 등록부와 뿌리등록부를 가진다고 설명하였다. 
이 두가지 정보는 프로쎄스와 파일체계의 호상관계를 표현하기 위해 핵심부가 관리 
해 야 하는 정보의 례 다. 

이 호상관계 를 표현하기 위 해 : fs _ struct 구조체 를 사용한다. (표 2-6 참고) 

매 프로쎄스서술자에는 프로쎄스의 fs _ struct 구조체를 가러키는 fs 마당이 있다. 
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표 2-6. _ fs_struct ? 玄 


형 

마 당 

설 명 

atomic t 

count 

이 구조체를 공유하는 프로쎄스의 수 

rwlock_t 

lock 

구조체의 마당을 위한 읽기/쓰기 스핀 
잠그기 

int 

umask 

파일을 열 때 접근권한설정을 위한 비 
트마스크 

struct dentry* 

root 

뿌리 등록부의 등록부입 구점 

struct dentry* 

pwd 

현재 작업 등록부의 등록부입 구점 

struct dentry* 

altroot 

모방하는 뿌리 등록부의 등록부입 구점 
(x86 방식에서는 NULL) 

struct vfsmount* 

rootmnt 

뿌리등록부에 탑재된 파일체계객체 

struct vfsmount* 

pwdmnt 

현재 작업등록부에 탑재된 파일체계객 

체 

struct vfsmount* 

altrootmnt 

모방하는 뿌리등록부에 탑재된 파일체 
계 객 체 (x86 방식 에 서 는 NULL) 


두번째 구조체의 주소는 프로쎄스서술자의 files 마당에 있는데 이 구조체는 프로쎄 
스가 연 파일을 나타낸다. 

files_stmct 구조체 로 되 여 있으며 표 2-7 에 마당을 렬거 하였다. 


표 2 - 1 .files struct 구조제마당 


형 

마 당 

설 명 

atomic_t 

count 

이 구조체를 공유하는 프로쎄스수 

rwkick_t 

filejock 

구조체의 마당을 위한 읽기/쓰기스 
핀 잠그기 

int 

max fds 

허용되는 파일객체수의 최대값 

int 

max fdset 

허용되는 파일서술자수의 최대값 

int 

next_fd 

지금까지 할당된 파일서술자의 최 
대 값 +i 

struct file** 

fd 

파일객체지 적 자배 럴의 지시 자 

fd_set * 

close_on_exec 

exec () 를 통해 닫을 파일서술자의 

지 시 자 

fd set * 

open fds 

열린파일서술자의 지시자 
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fd_set * 

close_on_exec_init 

exec 0 에 의해 닫을 파일서술자의 

초기 집합 

fd set * 

open fds init 

파일서술자의 초기집합 

struct file** 

fd_array 

파일객체지시 자의 초기배 렬 


M 마당은 파일객체지적 자배 럴을 가리킨다. 

배렬의 크기는 max_fds 마당에 저장한다. 대개 fd 는 files_struct 구조체의 
fd_array 마당을 가리킨다. 

초기에 fd_array 는 과일객체지적자 32 개를 담고있다. 프로쎄스가 파일을 32 개이상 
열면 핵심부는 더 큰 파일지적자배 럴을 할당하고 fd 마당에 그 주소를 저장한다. 

그러고 max_fds 마당값도 갱 신한다. 

M 배럴에 속한 모든 파일에 대해 해당 배렬색인값을 《 파일서술자 (file 
descriptor) ) 라고 부른다. 

대개 배럴의 첫번째 요소(색인값 0) 는 프로쎄스의 표준입력을 나타내고 두번째 요소 
는 표준출력, 세번째 요소는 표준오유를 나타낸다. 

Unix 프로쎄스는 파일서술자를 주파일식별자로 사용한다. 

dup(), dup2(), fcndO 체계호출을 사용하여 두 파일서술자가 같은 열린파일을 나 
타내도록 할수 있다. 

즉 배렬의 두 요소가 같은 파일객체를 가리킨다. 

사용자가 표준오유를 표준출력으로 내보내기 위해 2>&1과 같은 월문법을 사용할 때 
마다 이 기능을 사용하는것이 다. 

한 프로쎄 스는 파일서술자를 NR_OPEN (일반적으로 1048576) 개이상 사용할수 없다. 

핵 심 부는 프로쎄 스서 술자의 rlim[RLIMIT_NOFILE] 구조체 에 파일서 술자수의 최 대 
값에 대한 동적 인 제한을 가지고있는데 이 값은 대개 1024 이다. 

프로쎄스가 뿌리권한을 가지고있으면 이 값을 늘일수 있다. 

open_fds 마당의 초기값은 open_fds_init 마당의 주소를 담는다. 

open_fds_init 마당은 현재 열린파일의 파일서술자를 식별할수 있는 비트배치표이다. 

max_fdset 마당은 이 비트배치표의 비트수를 저장한다. 

M_set 자료구조는 1024bit 자료구조를 가지므로 일반적으로 비트배치표크기를 확장 
할 필요는 없다. 

그러나 핵심부는 파일객체배럴의 경우와 마찬가지로 확장이 필요한 경우 비트배치표 
의 크기를 동적으로 확장한다. 

핵심부는 파일객체를 사용하기 시작할 때 fgetO 함수를 호출한다. 

이 함수는 fd 파일서술자를 변수로 받는다. 그리고 대응하는 파일이 있으면 대응하는 
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파일객체의 주소인 current -> files -> fd [ fd ] 를 반환하고 fd 에 대응하는 파일이 없으면 
NULL 을 반환한다. 

대 응하는 파일 이 있을 경 우 fget () 는 파일 객 체 의 사용계 수기 인 f _ count 값을 1 

증가시킨다. 

핵심부는 핵심부실행경로에서 파일객체사용을 끝낼 때 fputO 함수를 호출한다. 

이 함수는 파일객체의 주소를 변수로 받으며 파일객체의 사용계수기인 f _ count 값을 
1 감소시킨다. 

이 마당값이 0이 되면 이 함수는 파일연산에서 release 메쏘드가 정의되 여있다면 이 
메쏘드를 호출하고 이어서 이 파일객체를 가리키는 등록부입구점객체를 해제한다. 

그리고 i 마디객체의 i _ writeaccess 마당값을 감소시키고(파일을 쓰기방식으로 열었다 
면) 마지막으로 파일객체를《사용중》에서 《사용중이 아님》목록으로 옳긴다. 

4. 파일체계류형 

Linux 핵심부는 여러가지 파일체계를 지원한다. 

여기서는 먼저 Linux 핵심부의 내부에서 중요한 역할을 하는 몇가지 특수류형의 파 
일체계를 살펴본다. 

다음으로 파일체계등록 즉 파일체계류형을 사용하기 전에 반드시 실행해야 하며 일 
반적 으로 체계초기 화단계 에서 실행되 는 기 본연산을 살펴 본다. 

파일체계가 등록되여야만 핵심부가 파일체계의 독자적인 함수들을 사용할수 있으며 
해당 류형의 파일체계를 체계의 등록부나무구조에 탑재할수 있다. 

1) 특수파일체계 

망 또는 디스크기반의 파일체계를 통해 사용자들이 핵심부외부에 저장된 정보를 다 
룰수 있지 만 특수파일 체 계 는 체 계 프로그람이 나 관리 자가 핵 심 부의 자료구조를 다루거 나 
조작체계의 특수기능을 실현할수 있도록 한다. 표 2-8 은 Linux 에서 사용하는 주요특수 
파일체계에 대한 탑재지점과 간단한 설명이다. 


g 2-8. _ 추요_수파일체계 


이름 

탑재 지 점 

설명 

bdev 

없음 

블로크장치 

binfmt misc 

임의 

기 타 실행파일형식화 

devfs 

/dev 

가상장치 파일 

devpts 

/ dev/pts 

가상말단지원 ( Unix 98 표준) 

pipefs 

없음 

관 

proc 

/proc 

핵 심 부자료구조에 대 한 범 용접 근위 치 

rootfs 

없음 

bootstrap 단계를 위해 렁 빈 뿌리등록부 제공 
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shm 

없음 

IPC 공유기 억 기 령 역 

sockfs 

없음 

소케트 

tmpfs 

임의 

림시파일 (바꾸지 않으면 기억기에서 관리함) 


어 떤 특수파일체 계 에 는 고정 된 탑재 지 점 이 없 다. (표에 서 《 임 의》로 표현) 

이런 파일체계는 사용자가 임의의 위치에 탑재해서 사용할수 있다. 

어 떤 특수파일체 계 는 아예 탑재 지 점 이 없 다. (표에 서 《 없음》으로 표현) 

이 경우는 사용자를 위한것이 아닌 핵심부가 이 특수파일체계를 사용함으로써 VFS 
계 층코드를 재 사용하기 위 한것 이 다. 

례를 들어 pipefs 특수파일체계를 사용함으로써 관을 FIFO 과일과 동일하게 처러할 
수 있다. 

특수파일체 계 는 물리 적 인 블로크장치 에 대 응되 지 않는다. 

그러나 핵심부는 탑재된 특수파일체계마다 주번호 0과 임의의(매 특수과일체계마다 
다른) 부번호를 가진 가상의 블로크장치를 할당한다. 

get _ unnamed _ dev 0함수는 새로운 가상블로크장치 식별 자를 할당하여 되돌려 주고 
put _ unnamed _ dev () 함수는 이것을 해제한다. 

unnamed _ dev _ in _ use 배렬은 어떤 부번호를 사용하고있 는지 기록하는 256 bit 마스 
크를 포함하고있다. 가상블로크장치식 별자라는 개 념을 싫어하는 핵 심부개 발자들도 있지 
만 핵 심 부는 가상블로크장치 를 사용하여 특수파일체 계 와 정 규파일체 계 의 구분없 이 한가 
지 방법으로 처 리할수 있다. 

핵심부가 어떻게 특수파일체계를 정의하고 초기화하는지 《뿌리파일체계 탑재 하기》 
에서 실제적인 실례를 보게 된다. 

2) 파일체계류형등록 

사용자들은 자신의 체계를 위해 핵심부를 를파일할 때 필요한 모든 파일체계를 
Linux 에 설정하는 경우가 많다. 그러나 실제로는 파일체계를 위한 코드를 핵심부영상 
에 포함할수도 있고 동적으로 모둘로 적재 할수도 있다. VFS 핵심부안에 코드가 현재 포 
함되 여있는 모든 파일체 계류형을 관리 해 야 한다. 

VFS 는 파일 체계 류형 등록 (filesystem type registration ) 을 통해 이 작업을 수행 한다. 

등록된 각 파일체계는 file _ system _ type 객체로 표현하며 이 객체의 매 마당은 표 


2-9 와 같다. 

M 2 - 9 . file system type 객제 □ fS ' 


류 형 

마 당 

설 명 

const char * 

name 

파일 체계 이름 

Int 

fs flags 

파일체계류형기발 
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struct super_block* 

(*) 0 

read_super 

초블로크를 읽기 위한 메쏘드 

struct module* 

owner 

파일체계를 구현하는 모둘의 지시자 

struct 

file system type* 

next 

다음목록요소를 가리키는 지시자 

struct list head 

fs supers 

초블로크객 체 목록의 머 리 부 


모든 파일체계 류형 객체는 단일 련결목록에 삽입 된다. 

file_systems 변수가 목록의 첫번째요소를 가리키며 구조체의 next 마당이 목록의 다 
음 요소를 가리 킨다. 

file_system_lock 읽기/쓰기 스핀잠그기가 전체 목록에 대한 동시 사용을 방지 한다. 
fs_supers 마당은 탑재 된 파일체 계 가운데 서 이 파일 체 계 류형인 초블로크객 체 들의 목 
록의 머리부(첫번째 허수아비요소)를 가러킨다. 

목록의 이전과 다음요소를 가리키는 련결은 초블로크객체의 s_instances 마당에 저 
장된 다. 

read_super 마당은 디스크장치 에서 초블로크를 읽어서 대응하는 초블로크객체 에 복 
사하는 파일체계류형의 독자적 인 함수를 가리 킨다. 

fs_flags 마당은 표 2-10 과 같은 여러기발을 담고있다. 


표 2-10. 

파일체계류형기® 

이 름 

설 명 

PS_REQUIRES_DEV 

이 류형의 파일체계는 반드시 물리적디스크장치에 

위치해야 한다 

PS NO DCAEHE 

더는 사용되지 않음 

PS NO PRELIM 

더는 사용되지 않음 

PS_SINGLE 

이 파일체계형에 대해 초블로크객체 하나만 존재 
할수 있다 

PS_NOMOUNT 

파일체 계 가 탑재지 점 을 가지 지 않음(《특수파일체 
계 > 참고) 

PS.LRTTER 

탑재 해제 이후에 등록부입구점캐쉬를 소거 함(특수 
파일체계에서 사용) 

PS_ODD_RENAME 

변경 (rename) 연산은 이동 (move) 연산임 (망 파일 

체계에서 사용) 
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체계초기화과정에서 를파일할 때 지정한 모든 파일체계에 대해 
register_filesystem 0 함수를 호출한다. 

이 함수는 대응하는 file_system_type 객체를 파일 체계 류형 목록에 삽입 한다. 

파일체계를 실현하는 모둘을 적재한 경우에도 register_filesystem() 함수를 호출한다. 
이 경우 모둘을 해제하면 unregister_filesystem() 함수호출을 통해 등록을 해소시 
킬수도 있다. 

get_fs_type() 함수는 파일체계가름을 변수로 받으며 등록된 파일체계 목록의 name 
마당을 탐색하여 일치하는 file_system_type 객체가 존재하는 경우 이 객체의 지적자를 
반환한다. 


5. 파일체 계탑재 하기 


매 과일체계는 자기의 뿌러등록부가 있다. 

어떤 파일체계의 뿌리등록부가 체계전체등록부나무구조의 뿌리일 때 이것을 《뿌리 
파일 체 계》라고 한다. 

다른 파일체계는 체계의 등록부나무구조에 탑재된다. 다른 파일체계를 탑재하는 위 
치 에 있는 등록부를 랍재 위 치 (mount point) 라고 한다. 

전통적인 Unix 계렬핵심부에서 매 파일체계는 한번만 탑재할수 있다. 다음과 같은 
명 령 으로 /dev/fdO 유연성 자기 원판에 들어있는 Ext2 파일체계를 /flp 등록부에 탑재 하였 
다고 하자. 

mount t ext2 /dev/fdO /flp 

umount 명령으로 파일체계를 탑재해제하기 전까지는 /dev/fdO 에 대한 탑재명령은 
실패 할것 이 다. 

그러나 Linux 는 다르다. 즉 한 파일체계를 여 러번 탑재할수 있다. 례를 들어 앞의 
명령 다음에 다음과 같은 명령을 실행하면 Linux 에서는 성공한다. 
mount t ext2 o ro /dev/fdO /flp-ro 

결과적 으로 유연성 자기 원판에 들어있는 Ext2 파일체 계는 /flp 와 /flp-ro 에 두번 탑 
재되였고 따라서 /flp 와 /flp-ro 두가지 경로를 통해 이 파일체계의 파일에 접근할수 있 
다. (이 례 에서 /flp-ro 를 통한 접근은 읽기전용이 다.) 

물론 어떤 파일체계가 n 번 탑재되면 각 탑재를 통해 엄은 탑재지점 n 개를 통해 해 
당 파일체계의 뿌리등록부에 접근할수 있다. 

하지만 같은 파일체계에 여러 경로를 통해 접근할수 있더라도 이 파일체계는 단지 
하나일 뿐이다. 

따라서 몇번 탑재되 였더 라도 이것들에 대해 초블로크객체는 단 하나만 존재한다. 

탑재된 파일체계들은 계층을 구성한다. 

첫번째 파일체계의 탑재위 치가 두번째 파일체계의 등록부이고 두번째 파일체계의 탑 
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재위치가 다시 세번째 파일체계의 등록부일수 있다. 

탑재지점 하나에 여러번 탑재하는것도 가능하다. 

갈은 탑재지점에 새로 탑재된 파일체계는 이전에 탑재된 파일체계를 덮어버린다. 
이전의 탑재에서 과일과 등록부를 사용하던 프로쎄스는 계속 사용할수 있다. 

제일 우에 탑재된 파일체계를 제거하면 그 아래 탑재되였던 파일체계가 나타난다. 

각 탑재연산에 대해 핵심부는 탑재위치와 탑재기발, 탑재될 과일체계와 다른 파일체 
계와의 관계 등을 기 억기 에 저장해 야 한다. 

이런 정보는 탑재된 파일체계서술자 (mount file system descriptor) 라는 구조체 
에 저장된다. 

매 서술자는 vfsmount 형태의 자료구조이고 마당은 표 2-11 과 같다. 


M 2-1 1 . vfsmount 자료구조의 당 


형 

마 당 

설 명 

struct list head 

mnt hash 

하쉬표목록의 지시자 

struct vfsmount * 

mnt_parent 

이 파일체계 가 탑재되 는 부모파일체 계 
의 지시자 

struct dentry * 

mnt 一 mountpoint 

이 파일체계의 탑재등록부의 등록부입 
구점 지시자 

struct dentry* 

mnt_root 

이 파일체계 뿌리등록부의 등록부입구 
점 지시자 

struct super block* 

mnt sb 

이 파일체계의 초블로크객체의 지시자 

struct list_head 

mnt_mounts 

서술자의 부모목록의 머리부(이 파일체 

계) 

struct list_ head 

mnt_child 

서술자의 부모목록의 머리부(부모 파일 

atomic t 

mnt coimt 

사용계수기 

int 

mnt flags 

기발 

char* 

mnt devname 

장치파일이름 

struct list_head 

mntjist 

서술자의 대역목록의 지시자 


vfsmount 자료구조는 다음과 같은 2중련결원형목록여러개로 이루어진다. 

> 탑재된 모든 파일체계를 담고있는 대역 (global)2 중련결원형목록 vfsmntlist 변 
수가 나타내는 목록의 머리부는 허수아비요소이다. 서술자의 mntjist 마당은 
목록의 린접항목을 가리키는 위치를 담는다. 
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> 부모파일 체 계 의 vfsmount 서 술자의 주소와 탑재 지 점 등록부의 등록부입 구점 객 체 
의 주소를 통해 참조하는 하쉬 표. 하쉬 표는 mountjiashtable 배렬에 저장되며 
배 럴의 크기는 체 계의 자유호출기억기크기 에 따라 다르다. 하쉬 표의 각 요소는 
하쉬값이 같은 모든 서술자를 저장한 원형2중련결목록의 머리부를 저장한다. 
서술자의 mnt _ hash 마당은 목록의 린접요소를 가리키는 위치를 저장한다. 

> 탑재된 각 파일체계마다 모든 탑재된 자식파일체계를 포함하는 원형2중련결목 
록. 매 목록의 머리부는 탑재된 파일체계서술자의 mnt _ mounts 마당에 저장된 
다. 서술자의 mnt _ child 마당은 목록의 린접요소를 가리키는 위치를 담는다. 

mount _ sem 신호기는 탑재된 파일체계객체의 목록에 대한 동시접근을 방지한다. 
서술자의 mnt _ flags 마당은 탑재된 파일체계에서 어떤 종류의 파일을 어떻게 처리할 
지 지정한다. 기 발은 표 2-12 에 있다. 


표 2-12. _ 랍재된 파일체계 ； Itt 


이 름 

설 명 

MNT NOSUID 

탑재된 파일체계에서 setuid 와 setgid 기발을 금지한다 

MNT—NODEV 

탑재된 파일체계에서 장치파일에 대한 접근을 금지한다 

MNT_NOEXEC 

탑재된 파일체 계 에서 프로그람실행 을 금지 한다 


다음 함수들이 탑재된 파일체계서술자를 처리한다. 
alloc _ vfsmnt () 

기능: 탑재된 파일체계서술자를 할당하고 초기화한다. 
free _ vfsmnt () 

기능 : mnt 가 가리키는 탑재된 파일체계서술자를 해제한다. 

lookup_mnt ( parent , mountpoint ) 

기능 : 하쉬표에서 서술자를 람색하여 그 주소를 반환한다. 

1) 뿌리파일체계 탑재하기 

뿌리 파일체 계 를 랍재 하는 일은 체 계 초기 화과정 의 주요부분의 하나이 다. Linux 핵 심 
부는 뿌리파일체계를 하드디스크구획，유연성자기원판， NFS 에 의해 공유된 원격파일체 
계, 읽기쓰기기억기에 있는 가상블로크장치 등 다양한 장소에 저장할수 있도록 허용하므 
로 뿌리파일체계 탑재는 아주 복잡한 일 이 다. 

설명 을 간단히 하기 위 해 뿌리 파일체 계 가 하드디스크의 구획 에 저 장되 여있다고 가정 
하자. 
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핵심부는 체계기동과정에서 ROOT_DEV 변수에서 뿌리파일체계가 들어 있는 디스크 
의 주번호를 얻는다. 

뿌리파일체계는 핵심부를 콤파일할 때 또는 적절한 항목을 초기기동적재프로그람에 
전달하여 /dev 등록부의 장치 파일 에 서 지 정할수 있 다. 

뿌리 파일체계 의 랍재 기 발은 root_mountflags 변수에 들어있 다. 사용자는 롬파일된 
핵 심 부영 상에 대 해 rdev 외 부프로그람을 사용하거 나 초기 기 동적 재 프로그람에 적 당한 항 
목을 전달하여 이 기발을 지정한다. 

뿌리파일체계를 탑재하는 일은 다음 목록과 같은 2단계작업으로 이루어진다. 

① 초기 탑재위 치 로 사용할 빈 등록부를 제공하는 roatfs 특수파일체 계를 탑재 한다. 

② 실제 뿌리파일체계를 빈 등록부에 탑재한다. 

왜 핵심부는 실제과일체계를 탑재하기 전에 rootfs 파일체계를 탑재하는가? rootfs 
파일체계덕분에 핵심부가 쉽게 뿌리파일체계를 변경할수 있다. 어떤 경우 핵심부는 여러 
뿌리파일체계를 하나씩 차례로 탑재하고 탑재해제한다. 례를 들어 어떤 배포판의 초기기 
동유연성디 스크는 최 소한의 구동프로그람을 포함한 핵 심 부를 RAM 에 적 재 하고 RAM 디 
스크에 저장된 최소파일체계를 뿌리로 탑재 한다. 

그러고 이 초기뿌러파일체계에 있는 프로그람이 체계의 하드웨어를 탐색하고(례를 
들면 하드디스크가 EIDE 인지 , SCSI 인지 ) 필요한 모든 핵 심부모둘을 적재한 다음 물리 
적 블로크장치 에서 뿌리 과일체 계 를 다시 탑재 한다. 

첫번째 단계는 체계초기화과정 에서 init_mount_tree() 함수가 실행 한다. 
struct file_system_type root_fs_type : 
root_fs_type. name = “roosfs” : 
root_fs_type. read_super = rootf s_read_super : 
root_fs_type. fs_flags = FS_NOMOUNT ； 
register_filesystem (&root_fs_type) : 

root_vfsmnt = do_kern_mount( “rootfs” ， 0, “rootfs” , NULL) : 

root_fs_type 변수는 rootfs 특수파일체계의 서술자객체를 저장한다. 

이 객체의 마당은 초기화된 다음 register_filesystem() 함수에 전달된다. 

do_kern_mount() 함수는 특수파일체계를 탑재하고 새로 탑재된 파일체계객체의 주 
소를 반환한다. 

이 주소는 init_mount_tree() 를 통해 root_vfsmnt 변수에 저장된다. 

이제 root_vfsmnt 는 탑재된 파일체계 나무의 뿌리를 나타낸다. 

do_kern_mount() 는 다음과 같은 변수를 받는다. 

fstype 

탑재될 파일체계류형 
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flags 

탑재기 발(《일반파일체 계 탑재하기》에 있는 표 2-13 참고) 

name 

파일 체 계 를 저 장하는 블로크장치 의 장치 파일 명(또는 특수파일 체 계 의 파일 체 계 류 

형 이 름) 

data 

파일체계의 read_super 메쏘드에 전달할 추가적인 자료의 지적자 

do _ kern _ mount () 는 다음과 같은 연산을 통해 실제 탑재연산을 수행한다. 

① 현재 프로쎄 스가 탑재 연산을 수행 할 권한을 소유하고있는지 검 사한다. (체 계초기 화 
는 뿌리가 소유한 프로쎄스에 의해 수행되므로 함수가 init _ maunt _ tree () 에 의해 호출 
되면 언제 나 성공한다.) 

② get _ fs _ type () 를 호출하여 type 변수의 파일체계가름을 파일체계류형목록에서 
람색한다. get _ fs _ type () 는 대응하는 file _ system _ type 서술자의 주소를 반환한다. 

③ alloc _ vfsmnt () 를 호출해서 새 로 탑재된 파일체계서술자를 할당하여 그 주소를 
국부변수 mnt 에 저장한다. 

④ mnt -> mnt_devname 마당을 name 변수의 내용으로 초기화한다. 

⑤ 새로운 초블로크를 할당하고 초기화한다. do _ kern _ mount () 는 이것을 어떻게 
수행 할지 결정하기 위 해 file _ system_type 서술자의 기 발을 검사한다. 

기 . FS _ REQUIRES _ DEV 가 설정 되 여 있으면 get _ sb _ bdev 0를 호출한다. (《 일 반 
파일체계 탑재하기》참고) 

ᄂ, FS_SINGLE 이 설정되여있으면 get _ sb _ single () 를 호출한다. (《일반파일체계 
탑재하기》참고) 

T 그. 그렇지 않으면 et _ sb _ nodev () 를 호출한다. 

© file _ system_type 서 술자의 FS_NOMOUNT 기 발이 설정 되 여 있으면 초블로크객 
체 의 MS_NOUSER 기 발을 설 정한다. 

⑦ mnt -> mnt_sb 마당을 새 로운 초블로크객체 의 주소로 초기 화한다. 

⑧ mnt - > mnt_root 와 mnt -> xnnt_mountpoint 마당을 파일체계의 뿌리등록부에 대 
응하는 등록부객체의 주소로 초기화한다. 

⑨ mnt —> mnt_parent 마당을 mnt 의 값으로 초기 화한다. (새 로 탑재된 파일체 계는 
부모가 없다.) 

⑩ 초블로크객체의 s_mnount 신호기를 해제한다. (이 신호기는 5 단계에서 객체를 할 
당할 때 획득한것 이 다.) 

⑪ 탑재된 파일체계객체의 주소 mnt 를 반환한다. 

init _ mount_tree () 가 rootfs 특수파일체계를 탑재하기 위 해 do _ kern _ mount () 를 
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호출할 때 FS _ REQUIRES _ DEV 기 발이 나 FS _ SINGLE 기 발 둘다 설정되 여 있지 않으므 
로 do_kern_mount() 는 초블로크객체를 할당하기 위 해 get_sb_nodev 0 를 사용한다. 

init _ mount _ tree () 함수는 다음과 같은 연산을 수행한다. 

① get_unnamed_dev() 를 호출하여 새 로운 가상블로크장치식 별 자를 할당한다. (앞 
에 서 《 특수파일 체 계》참고) 파일 체 계 류형 객 체，탑재 기 발，가상블로크장치 식 별 자를 변 
수로 read_super() 를 호출한다. 이 함수는 다음 연산을 수행한다. 

1* 새 로운 초블로크객체를 할당하여 그 주소를 국부변수 s 에 넣는다. 

T -. s->s_dev 마당을 블로크장치식별자로 초기화한다. 

c. s->s_flags 마당을 탑재기발로 초기화한다. (표 2-13 참고) 

ᄅ. sb_lock 스핀잠그기를 획득한다. 

s->s_type 마당을 파일체계의 파일체 계류형서술자로 초기화한다. 

« . super_blocks 가 머 리 부를 가리 키 는 파일 체 계 류형 목록에 초블로크를 삽입 한다. 

a. s->s_type->fs_supers 가 머리부를 가리키는 파일체계류형목록에 초블로크를 
삽입 한다. 

o . sb_lock 스핀잠그기 를 해 제 한다. 

X . 쓰기를 위 해 s->umount 읽기/쓰기 신호기를 획득한다. 

大. s->s_lock 신호기를 획득한다. 

귀. 파일 체계 류형의 read_super 메 쏘드를 호출한다. 

e. s->s_flags 의 MS _ ACTIVE 기발을 설정한다. 
s->s_lock 신호기를 설정한다. 

ᄒ. 초블로크의 주소 s 를 반환한다. 

② 핵심부모둘에 실현이 들어 있는 파일체계류형이라면 사용계수기를 1 증가시킨다. 

③ 새 로운 초블로크의 주소를 반환한다. 

뿌리 파일체계의 탑재 연산에서 두번째 단계는 체계초기화 끝부분에서 mount_root() 
함수가 처리한다. 

설명을 간단히 하기 위해 디스크기반의 파일체계에서 장치파일을 전통적인 방법으로 
처 리 하는 경우로 본다. 

이 경우 함수는 다음연산을 수행한다. 

① 완충기 를 할당하여 파일 체 계 류형이 름목록으로 채 운다. 이 목록은 rootfstype 기 
동변수를 통해 핵심부에 전달되거나 파일체계형태의 단순련결목록을 람색 하여 만든것이 
다. 

② bdgetO 나 blkdev _ get () 함수를 호출하여 뿌리 장치 ROOT _ DEV 가 존재 하고 잘 
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동작하는지 검사한다. 

③ get _ super () 를 호출하여 super _ blocks 목록에서 ROOT _ DEV 장치 에 대 응하는 
초블로크객체를 찾는다. 

아직 뿌리파일체계가 탑재되지 않았으므로 아무것도 찾을수 없다. 

그러나 이전에 탑재된 파일체계를 다시 탑재하는것이 가능하므로 검사를 한다. 

뿌리파일체계는 체계기동과정에서 보통 두번 탑재된다. 첫번째는 파일체계의 완전성 
을 안전하게 검사하기 위해 읽기전용으로 탑재된다. 

두번째는 정상적으로 디스크를 사용할수 있도록 읽기/쓰기용으로 탑재된다. 

여기서는 super _ blocks 목록에서 ROOT _ DEV 장치에 대응하는 초블로크객체를 찾 
지 못하였 다고 가정한다. 

④ ①에서 만든 파일 체 계 류형 이 름목록을 탐색 한다. 

각 이름에 대해 get _ fs _ type () 를 호출하여 대응하는 file _ system _ type 객체를 얻는다. 
그리고 read _ super () 를 호출하여 대응하는 초블로크를 디스크에서 읽기를 시도한다. 
앞에서 설명 한것처 럼 이 함수는 새로운 초블로크를 할당하고 file _ system _ type 객체 
의 read _ super 마당이 가리키는 메쏘드를 사용하여 블로크를 채우려 고 시도한다. 

각 파일체계의 독자적인 메쏘드가 유일한 식별번호 (magic number ) 를 가지기때문 
에 모든 read _ super () 호출은 뿌리장치가 실제 사용하는 파일체계의 메쏘드를 초블로크 
를 채우려고 하는 경우외에는 모두 실패한다. 

read _ super () 메쏘드는 뿌리등록부에 대한 i 마디객체와 등록부입구점객체도 생성한다. 
등록부입 구점 객 체 는 i 마디 객 체 에 대 응한다. 

⑤ 새로 탑재된 파일체계객체를 할당하고 ROOT _ DEV 블로크장치 이름, 초블로크객 
체의 주소, 뿌리등록부의 등록부입구점객체의 주소로 마당을 채운다. 

© graft _ tree () 함수를 호출하여 새로 탑재된 파일체계객체를 root _ vfsmnt 의 자식 
목록，탑재된 파일체계객체의 대역목록, mount _ hashtable 하쉬표에 삽입한다. 

@ 현재 프로쎄 스 ( init 프로쎄 스)의 fs _ struct 구조체의 root 와 pwd 마당을 뿌리 등록 
부의 등록부입 구점객체 로 초기 화한다. 

2) 일반파일체계 탑재하기 

뿌리파일체 계 를 초기 화하면 다른 파일 체 계 를 탑재할수 있 다. 매 파일체 계 는 자신의 
탑재위 치 가 있어 야 하는데 탑재위 치는 체 계의 등록부나무에 존재하는 등록부 하나면 충 
분하다. 

파일체계를 탑재하기 위 해 mountO 체계 호줄을 사용한다. 

이 체계호출의 sys _ mount () 봉사루린은 다음과 같은 변수를 받는다. 

> 파일체계 가 들어있는 장치 파일의 경로명 . 이것 이 필요하지 않다면 NULL (례 를 
들면 탑재 될 파일체 계 가 망기 반인 경 우) 

> 파일 체 계 를 탑재 할 등록부의 경 로명 (탑재 지 점 ) 
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> 파일체계류형 . 반드시 등록된 파일체계의 이름이여 야 한다. 

> 탑재기발(사용가능한 값은 표 2-13 에 있다.) 

> 파일체계에 따른 자료구조지적자 (NULL 일수도 있다.) 


표 2- 13. 

탑재기발 

마크로 

설 명 

MS_RDONLY 

파일을 읽을수만 있음 

MS_NOSUID 

setuidfi 나 setgid 기 발금지 

MS—NODEV 

장치파일접근금지 

MS—NOEXEC 

프로그람실행금지 

MS_SYNCHRONOUS 

쓰기연산을 즉시 실행 

MS_REMOUNT 

탑재기발을 변경하여 파일체계를 다시 탑재 

MS.MANDLOCK 

강제 적 ( mandatory ) 잠그기 허 용 

MS—NOATIME 

파일접근시 간을 갱신하지 않음 

MS—NODIRATIME 

등록부접근시 간을 갱신하지 않음 

MS_BIND 

결합 ( bind ) 지점을 생성하여 파일이나 등록부가 
체계등록부나무의 다른 위치에 보이게 함 

MS_MOVE 

탑재된 파일체계를 다른 탑재지점으로 이동 

MS_REC 

등록부보조나무에 대 해 속박탑재 를 재귀적으로 

생성 

MS_VERBOSE 

탑재오유에 대해 핵심부통보문생성 


sys _ mount () 함수는 변수의 값을 림시핵심부완충기에 복사하고 큰 핵심부잠그기를 
획득한 다음 do _ mount () 함수를 호출한다. 

do _ mount () 에서 돌아오면 봉사루린이 큰 핵심부잠그기를 풀어주고 ( release ) 림시 
핵 심 부완충기 를 해 제 (打 ee ) 한다. 
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do _ mount () 함수는 다음과 같은 연산을 통해 실제 탑재연산을 수행한다. 

① 랍재기발의 웃 16 bit 가 《 magic 》 값 OxceOd 로 설정되여있는지를 검사한다. 이 
경우 이 부분을 0으로 지운다. 이것은 sys _ mount () 봉사루린이 웃자리비트기발을 처 
리하지 못하는 오래된 C 서고와 함께 동작할수 있도록 하는 오래된 기법이다. 

② 변수에 MS _ NOSUID , MS _ NODEV 또는 MS_NOEXEC 기 발이 설정되 여 있으면 
이것들을 지우고 탑재된 파일체계객체의 대응하는 기발 ( MNT _ NOSUID , 
MNT — NODEV , MNT _ NOEXEC ) 을 설 정한다. 

③ path_lookup() 과 path_walk() 를 호출하여 탑재지점의 경로명을 람색한다. 

④ 탑재기발을 검사하여 어떤 작업을 수행 할것 인가를 결정한다. 

n . MS _ REMOUNT 기발이 설정되여있으면 초블로크객체의 s _ flags 마당의 탑재 
기발과 탑재된 파일체계객체의 mnt _ flags 마당의 탑재된 파일체계기발을 변경해야 한다. 
do _ remount () 함수가 이 변경을 수행한다. 

1 一. 그렇지 않으면 MS _ BIND 기 발을 검사한다. 기발이 설정되 여있으면 사용자가 
파일이나 등록부를 체계등록부나무의 또 다른 위치에 보이게 하려는것이다. 이것은 보통 
물리 적 디 스크구획 이 아닌 일 반파일 에 저 장된 파일 체 계 를 탑재할 때 사용한 
다. ( loopback ) do _ loopback () 함수가 이 작업 을 수행 한다. 

c . 그렇지 않으면 MS _ MOVE 기 발을 검사한다. 기 발이 설정 되 여있으면 사용자는 
이미 탑재된 파일체계의 탑재위치를 변경을 요청한것이다. do _ move _ mount () 함수가 
이것을 수행한다. 

s . 그렇지 않으면 do _ add _ mount () 를 호출한다. 이 경우가 가장 일반적이다. 
이 경우 사용자가 디스크구획에 저장된 특수파일체계나 일반파일체계의 탑재를 요청한것 
이 다. do _ add _ mount () 는 다음과 같은 작업을 수행 한다. 

피. 파일체계류형，탑재기발，블로크장치이름을 변수로 do_kern_moimt() 를 호 
출한다.《뿌리파일체계 탑재하기》에서 설명한것처럼 do_kern_mount() 가 실제탑재연 
산을 처 리한다. 

w . mount _ sem 신호기 를 획 득한다. 

a. do_kern_mount () 가 할당한 새로 탑재된 파일체계객체의 mnt_flags 마당의 
기발을 초기화한다. 

o . graft _ tree () 를 호출하여 새로 탑재된 파일체계 객체를 대역목록, 하쉬표，탑 
재된 부모과일체계의 자식목록에 삽입한다. 

기. mount _ sem 신호기를 해제한다. 

④ pa 仕 i_release() 를 호출하여 탑재위치의 경로명람색을 끝낸다. (뒤에 나오는 
《 경 로명 탐색》참고) 

앞에 있는《 뿌리파일체계 탑재하기》에서 이미 본것처럼 탑재연산의 핵심은 
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do _ kern _ mount () 함수이 다. 

이 함수가 파일체계류형기발을 검사하여 어떤 탑재연산을 실행할것 인가를 결정한다 
는 사실을 기 억할것 이 다. 

일반디스크기반의 파일체계의 경우 FS _ REQUIRES _ DEV 기발이 설정되며 따라서 
do _ kern _ mount () 는 get _ sb _ bdev () 함수를 호출하여 다음 작업을 수행 한다. 

① path _ lookup () 과 pa 仕 i _ walk () 를 호출하여 블로크장치 (block device ) 의 경 로 
명 을 탐색 한다. (《 경 로명 탐색》참고) 

② blkdev _ get () 를 호출하여 일반파일체계를 저장하고있는 블로크장치를 연다. 

③ 초블로크객체의 목록을 탐색 한다. 블로크장치에 대한 초블로크가 이미 있으면 그 
주소를 반환한다. 파일체계 가 이미 탑재 되 여있으며 다시 탑재되는 경우이 다. 

④ 그렇지 않으면 새 로운 초블로크객 체를 할당하고 s _ dev , s _ bdev , s _ flags , 
s _ type 마당을 초기화하고 객체를 초블로크의 대역목록，파일체계류형서술자의 초블로크 
목록에 삽입한다. 

遇) 초블로크의 s _ lock 스핀잠그기를 획득한다. 

⑥ 파일체 계류형의 read _ super 메 쏘드를 호출하여 디스크의 초블로크정 보를 읽 고 새 
로운 초블로크객체의 다른 마당들을 채운다. 

⑦ 초블로크의 MS _ ACTIVE 기발을 설정한다. 

⑧ 초블로크의 s _ lock 스핀잠그기를 해제한다. 

⑨ 핵심부모둘에 실현된 파일체계류형인 경우 사용계수기를 1 증가시킨다. 

⑩ 탑재 위 치탐색 연산을 끝내 기 위 해 patii _ release () 를 호출한다. 

⑪ 새 로운 초블로크객체의 주소를 반환한다. 

3) 파일 체 계탑재 해 제 하기 

파일체계를 탑재해제하기 위해 umountO 체계호출을 사용한다. 

이 체계호출에 대응하는 sys _ umount () 봉사루린은 두 변수 즉 파일명(탑재등록부 
나 블로크장치파일)과 기발집 합을 받는다. 

봉사루린은 다음과 같이 동작한다. 

① path _ lookup 0과 pa 比 i _ walk () 를 호출하여 랍재지점경로명을 람색한다. 

이 작업 이 끝나면 함수는 경로명에 대응하는 등록부입구점객체의 주소 d 를 반환한다. 

② 등록부가 파일체 계 의 탑재 위 치 가 아니 면 EINVAL 오유코드를 반환한다. 

이를 위해 d -> mnt -> nmt _ root 가 등록부객체 d 의 주소를 포함하는가를 검사한다. 

③ 탑재 해 제 할 파일체 계 가 체 계 등록부나무에 탑재 되 지 않았으면 EINVAL 오유코 
드를 반환한다.(어떤 특수파일체계는 탑재지점 이 없음을 기억할것 이 다.) 이를 위해 d - 
> mnt 에 대해 ctLeck_mnt 0 함수를 호출하여 검사한다. 

④ 사용자가 파일 체 계 를 탑재 해 제 하는데 필요한 권한이 없 다면 EPERM 오유코드 

를 반환한다. 
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⑤ do_umount() 를 호출하여 다음 연산을 수행한다. 

一"!. 탑재된 파일체계객체의 mnt_sb 마당에서 초블로크객체의 주소를 얻는다. 

사용자가 force 항목을 통해 탑재해제를 반드시 수행하기를 요청하였다면 
uxnount_begin 초블로크연산을 호출하여 진행중인 탑재 연산을 중지한다. 

c. 탑재해제할 파일체계가 뿌리파일체계 이고 사용자가 뿌리의 분리 (detach) 를 요청 
한것이 아니라면 do_remount_sb 0 # 호출하여 뿌리 파일체계를 읽기전용으로 다시 탑 
재하고 끝낸다. 

ᄅ. mount_sem 신호기를 쓰기용으로 획득하고 dcache_lock 등록부입구점스핀잠 
그기를 획득한다. 

탑재된 파일체 계 가 자식탑재파일체계를 위한 탑재위 치를 가지 고있지 않거 나 사 
용자가 파일체 계 의 분리 (detach) 를 요청 하였 다면 umcnmt_treeO 를 호출하여 (모든 자 
식파일체계와 함께) 파일체계를 탑재해제한다. 

ᄇ . mount_sem 와 dcache_lock 를 해제한다. 

6. 경 로명탐색 


여기서는 VFS 가 파일명 으로부터 대 응하는 i 마디 를 어 떻게 얻는가를 설명한다. 

어떤 프로쎄스가 파일을 표현해야 할 때 즉 VFS 체계호출인 openO, mkdirO, 
rename() , stat() 등에 전달해야 할 때 프로쎄스는 파일의 경로명을 전달한다. 

이 작업을 수행하는 표준절차는 경로명을 분석하여 여러 파일명의 렬거로 나누는것 
이 다. 

마지막을 제외한 파일명은 등록부를 표현한다. 

경로명에서 첫번째 문자가《/》이면 절대경로며 람색을 current->fs->root (프로 
쎄스의 뿌리등록부)가 나타내는 등록부에서 시작한다. 

그렇지 않으면 경로명은 상대경로이며 탐색을 current->fs->pwd (프로쎄스의 현재 
등록부)가 나타내는 등록부에서 시작한다. 

시작위치등록부의 i 마디를 얻었으므로 이 등록부에서 첫번째 이름과 일치하는 입구 
점을 찾아서 대 응하는 i 마디를 얻는다. 

그리고 이 i 마디를 포함하는 등록부파일을 등록부에서 읽은 다음 두번째 이름과 일 
치 하는 입구점을 찾아서 대 응하는 i 마디를 얻는다. 

이 과정을 경로명에 포함된 파일명에 대해 반복한다. 

가장 최 근에 사용한 등록부입 구점객 체 들을 기 억 기 에 유지 하고있는 등록부입 구점캐쉬 
가 이 경 로명탐색 과정 을 매 우 빠르게 한다. 

앞에서 본것처럼 이 캐쉬의 각 객체는 어떤 등록부의 파일명과 이에 대응하는 i 마디 
를 련결한다. 

따라서 많은 경우 경로명해석과정중 중간에 있는 등록부들을 디스크에서 읽지 않아 
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도 된다. 

그렇지만 다음과 같은 Unix 와 VFS 파일체계의 특성을 반드시 고려해야 하므로 일 
은 보기처럼 단순하지 않다. 

> 프로쎄스가 등록부의 내용을 읽을수 있는 권한이 있는지 확인하기 위해 각 등록 
부의 접근권한을 검사해야 한다. 

> 파일명이 다른 임의의 경로명을 가리키는 기호련결일수도 있다. 이 경우 기호련 
결이 가리키는 경로명의 모든 구성요소를 분석에 포함해야 한다. 

> 기 호련결은 원형참조에 도달할수 있다. 핵 심부는 이 경 우를 방지 하기 위 해 무한 
순환이 발생하면 중지한다. 

> 파일명은 탑재된 파일체계의 탑재위치일수도 있다. 핵심부는 이 경우를 반드시 
검출하여 새 과일체계에서 탐색연산을 계속해야 한다. 

경 로명 탐색 은 path _ lookup () , path _ walk (), npa 比 L_release () 라는 세 함수를 순 
서대로 호출하여 실행한다. 

path_lookup () 은 다음 3가지 변수를 받는다. 
name 

해석할 파일경로명을 가리키는 지적자 
flags 

탐색할 파일을 어떻게 접근할것인지 나타내는 기발값. 

기발은 뒤에 나오는 《 openO 체계호출》에서 표 2-17 에 있다. 
nd 

nameidata 구조체 자료구조의 주소 

patii _ walk () 가 경로명람색 연산에 관련된 정보들로 nameidata 구조체 자료구조를 채 
운다. 

이 구조체의 마당은 표 2-14 와 같다. 


표 2-14. _ nameidata 지•표구 am 


형 

마당 

설명 

struct dentry * 

dentry 

등록부입구점객체의 주소 

struct vfs_mou 

mnt 

탑재된 파일객체의 주소 

struct qstr 

last 

경 로 이 름의 마지 막구성 요소 
( LOOKUP _ PARENT 기 발이 설 정 되 여 있 
으면 사용 ) 
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unsigned int 

flags 

탐색기 발 

int 

last 

_type 

경로이름의 마지막 구성 요소류형 
(LOOKCP_PARENT 기 발이 설 정 되 여 있 
으면 사용 ) 


dirty 와 mnt 마당은 경로명에서 마지막으로 해석한 구성요소의 등록부입구점객체와 
탑재된 파일체계객체를 가러킨다. 

patti_walk() 가 성공적으로 끝나면 주어진 경로명이 나타내는 파일을 이 두마당이 
표현한다. 

flags 마당은 탐색연산중에 사용하는 기발값을 나타내며 표 2-15 와 같다. 


표 2-15. _ 람•색연산의 ? i [» 


마크로 

설 명 

LOOKUP.FOLLOW 

마지 막구성 요소가 기 호련결 이 면 해 석 한다. (따라 
간다.) 

LOOKUP_DIRECTORY 

마지막 구성요소가 반드시 등록부여 야 한다. 

LOOKUP_CONTINU 

경 로이름에 아직도 해석할 파일 이름이 남아있 
다. (NFS 에 서 만 사용) 

LOOKUP_POSITIVE 

경로이름이 반드시 존재하는 파일을 나타내 야 
한다. 

LOOKUP_PARENT 

경로이름의 마지막 구성요소를 포함하는 등록부 
를 람색한다. 

LOOKUP_NOALT 

뿌리등록부모방을 고려하지 않는다. 

(80x86 방식에서 언제나 설정된다.) 


pa 仕 i_lookup() 함수의 목표는 nameidata 자료구조를 초기화하는것으로 다음과 같은 
작업을 수행한다. 

① dentry 마당을 경 로명 람색 을 시 작하는 등록부의 등록부입 구점 객 체 주소로 설정 한다. 
경로명이 상대경로면(《/》으로 시작하지 않으면) 이 마당은 작업등록부 (current- 
>fs->pwd) 의 등록부입구점을 가리킨다. 

그렇지 않으면 프로쎄스의 뿌리등록부 (curren->fs->root) 의 등록부입구점을 가리 
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킨 다. 

② mnt 마당을 경 로명 탐색 을 시 작하는 등록부에 대 해 탑재 된 파일 체 계 의 주소로 설 
정 한다. 

경로명이 상대 경로인지 절대경로인지에 따라 current->fs->pwdmnt 거 나 

current->fs->rootmnt 0 l 다. 

③ flags 마당을 flags 변수값으로 설정한다. 

④ LAST_ROOT 의 last_type 마당을 초기 화한다. 

path_lookup 0 이 nameidata 를 초기화하고나면 patti_walk() 함수가 탐색 연산을 
계속 처 리 한다. 

등록부입구점객체지적자와 경 로명의 마지 막구성 요소에 대 한 탑재된 파일체 계객체 를 
nameidata 구조체 에 저 장한다. 

또한 nd->dentry 와 nd->mnt 가 나타내는 객체의 사용계수기를 1 증가시켜 
pa 仕 i_walk 함수가 끝나면 이것을 호출한 함수가 안전하게 사용할수 있게 한다. 

호출한 함수가 사용을 끝내면 patii_release() 를 호출한다. 이 함수는 nameidata 자 
료구조의 주소를 변수로 받아서 nd->dentry 와 nd-> mnt 의 사용계수기를 감소시킨다. 

이제 경 로명 탐색 연산의 핵심 인 path_walk() 함수를 설명할 차례 이 다. 이 함수는 해 
석 할 경 로명을 가리키는 지적자와 nameidata 자료구조의 주소 nd 를 변수로 받는다. 

현재프로쎄스의 total_link_count 를 0 으로 초기화하고(뒤에 나오는 기호련결람색 
참고) link_pa1;h_walk() 를 호출한다. 

이 함수는 pa 比 i_walk() 와 갈은 두개 변수를 받는다. 

리 해를 돕기 위 해 LOOKUP_PARENT 가 설정되 여 있지 않고 경 로명 이 기 호련결을 
포함하지 않은 경 우 (표준경 로명 람색 ) 를 먼저 설 명한다. 

다음으로 LOOKUP_PARENT 가 설정된 경우를 설명한다. 이 류형의 람색은 등록 
부입구점 을 생성 , 삭제 , 변경 할 때 즉 부모경 로명탐색과정 에 필요하다. 

마지막으로 기호련결을 어떻게 처리하는가를 설명한다. 

1) 표준경 로명탐색 

LOOKUP_PARENT 기 발이 설정되 여있지 않으면 link_path_walk() 는 다음 단계 
를 수행 한다. 

① lookup_flags 국부변수를 nd->flags 로 초기화한다. 

② 경로명의 첫 구성요소앞에 있는 모든 빗선기호(《/》)를 건너된다. 

③ 남아있는 경로명이 없으면 0 을 반환한다. nameidata 자료구조의 dentry 와 mnt 
마당은 원래 경로명에서 마지막으로 해석된 구성요소에 관련한 객체들을 가리킨다. 

④ 현재 프로쎄 스의 서 술자의 link_count 마당이 정수면 lookup_flags 국부변수의 
LOOKUP_FOLLOW 기 발을 설정 한다. (《 기 호련결 탐색》참고) 

© 이름을 구성요소로 분할하는 과정을 반복한다. (중간에 있는 빗선기호를 파일명구 
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분자로 사용한다.) 각 구성요소를 얻을 때마다 함수는 다음을 수행 한다. 

- i . 마지막으로 해석된 구성요소의 i 마디객체의 주소를 nd -> dentry -> d _ inode 에서 
가져 온다. 

> 一. 마지막으로 해석되여 i 마디에 저장된 구성요소의 접근권한이 실행을 허가하는지 
검 사한다. ( Unix 에 서 실 행 가능한 등록부만 탐색 할수 있 다. ) 

i 마디 가 독자적 인 접근권한메쏘드를 가지 고있으면 해 당 메쏘드를 실행한다. 

그렇지 않으면 vfs _ permission () 함수를 실행한다. 이 함수는 i 마디마당 i _ mode 와 
실행중인 프로쎄스의 권한을 검사한다. 

c - 다음으로 해석할 구성요소를 찾는다. 등록부입구점캐쉬 하쉬표에 사용할 하쉬 
값을 구성 요소이 름으로부터 계 산한다. 

S . 해석이 끝난 구성요소이름 다음에 뒤따라오는 빗선기호(《/》)들을 건너쥔다. 

해석 할 구성요소가 원래 경 로명의 마지막것 이였으면 6단계 로 간다. 

w . 구성요소의 이름이 《.》이면 다음 구성요소에서 계속한다. (《.》은 현재 등록 
부를 나타내며 따라서 경로명 에 아무런 영 향을 주지 않는다.) 

A. 구성요소의 이름이 《..》이면 부모등록부로 이동을 시도한다. 

■ 마지막으로 해석한 등록부가 프로쎄스의 뿌리등록부이면 ( nd->dentry 가 
current -> fs->root 와 일치하고 nd -> mnt 가 current -> fs -> rootmnt ) 다음 구성요소에 
서 계속한다. 

• 마지막으로 해석한 등록부가 탑재된 파일체계의 뿌리등록부이면 ( nd -> dentry 가 
nd -> mnt -> mnt_root 와 일치) nd - > mnt 를 nd -> mnt —> mnt _ parent 로 설정하고 nd - 
> dentry 를 nd -> mnt -> mnt _ mountpoint 로 설정하고 ⑤ - a 단계에서 다시 시작한 
다. (같은 탑재위 치 에 여 러 파일체 계 를 탑재 할수 있 다고 앞에서 설명 하였다. ) • 마지 막으 
로 해석한 등록부가 탑재된 파일체계의 뿌리등록부가 아니면 nd -> dentry 를 nd - 
> dentry -> d _ parent 로 설정하고 다음 구성요소에 대해 계속한다. 

o . 여기에 이르면 구성요소이름은 도 도 아니다. 이제 함수는 등록부입 

구점 캐 쉬 를 찾는다. 저 수준파일 체 계 가 독자적 인 d _ hash 등록부입 구점 메 쏘드를 가지 고있 
으면 함수는 이 메쏘드를 호출하여 ⑤ -n 단계에서 계산한 하쉬값을 수정한다. 

ᄌ. nd -> dentry , 해석할 구성요소이름，하쉬값， LOOKUP — CONTINUE 기발 등 
을 변수로 caches _ lookup () 을 호출한다. 마지막의 LOOKUP _ CONTINUE 기발은 이 
것이 경로명의 마지막구성요소가 아님을 나타낸다. 함수는 d _ lookup () 을 호출하여 구 
성 요소의 등록부입구점객체를 등록부입구점캐 쉬 에서 찾는다. cached _ lookup () 이 등록 
부입구점을 캐쉬에서 찾지 못하면 link _ walk _ pa 比 1 0는 real _ lookup () 을 호출하여 등 
록부를 디스크에서 읽어서 새로운 등록부입구점객체를 생성한다. 어떤 경우든지 이 단계 
의 끝에서 dentry 국부변수는 이 단계에서 해석할 구성요소이름의 등록부입구점객체를 
가리 킨 다. 


88 


透資© @資變©^ 


체 2 장 . ut°jm 


大. 방금 해석한 구성요소 ( dentry 국부변수)가 파일체계에 대한 탑재지점으로 사 
용되는 등록부를 나타내는가를 검사한다. ( dentry -> d _ mounted 가 1로 설정 되 여 있는 경 
우)이 경우 dentry 와 nd -> mnt 를 변수로 lookup _ mnt () 를 호출하여 탑재된 자식파일 
체 계 객체의 주소 mounted 로 설정 한다. 

그리 고 전체 단계 를 다시 반복한다(여 러 파일 체 계 를 갈은 탑재 위 치 에 탑재할수 있 

다.) 

= i . dentry -> d_inode i 마디객체가 독자적인 follow _ link 메쏘드를 가지고있는가 
를 검사한다. 그렇다면 구성요소는 기호련결이다. 《기호련결람색》에서 기호련결을 다 
룬다. 

'«* dentry 가 등록부의 등록부입구점객체를 가리키는가를 검사한다. ( entry - 
> d _ inode -> I _ op -> lookup 메쏘드가 정의됨) 그렇지 않으면 구성요소는 원래 경로명의 
중간에 있는데 dentry 가 등록부가 아니므로 ENOTDIR 오유를 반환한다. 

⑥ 자기의 원래 경로명에서 마지막을 제외한 모든 구성요소를 해석하였다. 경로명에 
뒤따라오는 빗선기호가 있으면 lookup_f lags 국부변수에서 LOOKUP_FOLLOW 와 
LOOKUP _ DIRECTORY 를 설정 하여 마지 막구성 요소를 등록부명 으로 해 석하도록 한다. 

速) lookup _ flags 변수의 LOOKUP _ PARENT 기 발을 검 사한다. 

여기서는 이 기발이 0이라고 가정하며 1인 경우는 뒤에서 다룬다. 

⑧ 마지막구성요소의 이름이 《.》이면 실행을 완료하고 0( 오유없음)을 반환한다. 
nd 가 가리키는 nameidata 구조의 dentry 와 mnt 마당은 경로명의 마지막직전구성요소 
가 나타내 는 객 체 를 가리 킨다 ( 《 . 》은 경 로명 에 서 아무런 영 향을 주지 않는다. ) 

⑨ 마지막구성요소의 이름이 《..》이면 부모등록부로 이동을 시작한다. 

ᄀ. 마지막으로 해석한 등록부가 프로쎄스의 뿌리등록부이면 ( nd->dentry 가 
current - > fs -> mnt 와 일치하고 nd->mnt 가 current -> fs -> rootmnt ) 실행을 완료하고 
0( 오유없음)을 반환한다. 

1 一. 마지막으로 해석한 등록부가 탑재된 파일체계의 뿌리등록부이면 ( nd->dentry 
가 nd -> mnt -> mnt _ root 와 일치) nd -> mnt 를 nd -> mnt -> mnt _ parent 로 설정하고 nd - 
> dentry 를 nd -> mnt -> mnt _ mountpoint 로 설정하고 ⑤-ᄎ단계 에서 다시 시 작한다. 

c , 마지막으로 해석한 등록부가 탑재된 과일체계의 뿌러등록부가 아니면 nd - 
> dentry 를 nd -> dentry -> d _ parent 로 설정하고 실행을 완료하고 0( 오유 없음)을 반환 
한다. 

nd -> dentry 와 nd -> mnt 는 경로명의 마지막직전구성요소가 나타내는 객체를 가리 
킨 다. 

마지막구성요소의 이름은《.》도《..》도 아니다. 이제 함수는 등록부입구점캐쉬 
를 찾는다. 

저 수준파일 체 계 가 독자적 인 d _ hash 등록부입 구점 메 쏘드를 가지 고있 으면 함수는 이 
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메쏘드를 호출하여 ©-t 단계 에서 계산한 하쉬값을 수정한다. 

nd -> dentry , 해석할 구성요소이름, 하쉬값 그리고 기발없음 등을 변수로 
cached _ lookup () 을 호출한다. (이것 이 경 로명 의 마지 막구성 요소이므로 LOOKUP _ 
CONTINUE 가 설정되지 않는다.) 

cached _ lookup () 이 등록부입구점을 패쉬에서 찾지 못하면 real _ lookup () 을 호출 
하여 디스크에서 등록부를 읽어서 새로운 등록부입구점객체를 생성한다. 

어떤 경우든지 이 단계의 끝에서 dentry 국부변수는 이 단계에서 해석할 구성요소이 
름의 등록부입구점객체를 가리킨다고 가정할수 있다. 

방금 해석한 구성요소 ( dentry 국부변수)가 파일체계에 대한 탑재위치로 사용되는 등 
록부를 나타내는지 검사한다. ( dentry -> d _ mounted 가 1로 설정되여 있는 경우) 

이 경우 dentry 와 nd _> nmt 를 변수로 lookup _ mnt () 를 호출하여 탑재된 자식파일 
체계 객체의 주소 mounted 를 얻는다. 

다음으로 dentry 를 mounted -> mnt _ root 로 설정하고 nd -> mnt 를 mounted 로 설 
정 한다. 

그리고 전체 단계를 다시 반복한다. (여러 파일체계를 같은 탑재지점에 탑재할수 있 

다.) 

LOOKUP _ FOLLOW 기 발이 설정되 여있고 dentry -> d_indoe i 마디객 체 가 독자적 
인 follow _ link 메 쏘드를 가지고있는지 검사한다. 

둘다 만족하면 구성요소는 기호련결이다. (《 기호련결람색》에서 기호련결을 다룬 

다.) nd -> dentry 를 dentry 국부변수에 저장된 값으로 설정한다. 이 등록부입구점 

객체가 탐색연산의 최종결과이다. 

nd -> dentry -> d _ inode 가 NULL 인가를 검사한다. 이것은 등록부입구점객체에 대 
응하는 i 마디가 없는 경우로, 대부분 존재하지 않는 파일을 경로명 이 가리키는 경우이다. 

lookup _ flags 에 LOOKUP _ POSITIVE 나 LOOKUP _ DIRECTORY 가 설정되 여있 
다면 ENOENT 오유코드를 반환하면서 완료한다. 

그렇지 않으면 0( 오유 없음)을 반환하면서 완료한다. nd -> dentry 는 탐색연산에 의 
해 생성된 nega 社 ve 등록부입구점객체를 가리킨다. 

경로명의 마지막구성요소에 대응하는 I 마디가 존재한다. 

lookup _ flags 에 LOOKUP _ DIRECTORY 기 발이 설정되 여 있으면 inode 가 독자적 
인 탐색 메쏘드를 가지는가 즉 등록부인가를 검사한다. 

등록부가 아니면 ENOTDIR 오유코드를 반환하여 완료한다. 

0( 오유 없음)을 반환하면서 완료한다. nd -> detnry 와 nd -> mnt 는 경로명의 마지막 
구성요소를 가리킨다. 

2) 부모경 로명탐색 

많은 경 우 탐색연산의 실제 목표는 경 로명 의 마지 막구성 요소가 아닌 마지 막 직 전의 
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구성요소이다. 

례를 들어 파일을 생성할 때 마지막구성요소는 아직 존재하지 않는 파일명을 나타내 
고 경로명의 나머지부분이 새로운 련결을 삽입할 등록부를 나타낸다. 

따라서 탐색 연산은 마지막 직전구성요소의 등록부입구점객체를 엄어야 한다. 

또 다른 실례로 경로명 /foo/bar 로 표현하는 파일을 련결해제하는것은 bar 를 등 
록부 foo 에서 삭제하는것이다. 따라서 핵심부는 bar 가 아닌 파일등록부인 foo 에 접근해 
야 한다. 

탐색연산이 경로명의 마지막 구성요소가 아닌 마지막구성요소를 포함하는 등록부를 
찾아야할 때 LOOKUP_PARENT 기발을 사용할수 있 다. 

LOOKUP_PARENT 기발이 설정되면 pa 比 i_walk() 함수는 nameidata 자료구조의 
last 와 last_type 마당도 설정한다. last 마당은 경 로명의 마지막구성요소를 저장한다. 

last_type 마당은 마지막구성요소의 류형을 저장한다. last_type 마당의 값은 표 2- 
16 에 렬거한 값중 하나이 다. 


표 2-16. nameidata 자료구조의 last_type □[당값 


값 

설명 

LAST NORM 

마지 막구성 요소는 일 반파일 명 이 다. 

LAST ROOT 

마지 막구성요소는《/》이다. (즉 전체 경로명이 《 /》이 다. ) 

LAST DOT 

마지막구성요소는《.》이다. 

LAST DOTDOT 

마지 막구성 요소는《 .. 》이다. 

LAST BIND 

마지 막구성 요소는 특수파일체 계 를 가리 키 는 기 호련결 이 다. 

O.NONBLOCK 

파일에 대하여 어떤 체계호출도 차단되지 않음 

◦-NDELAY 

◦-NONBLOCK 과 같음 

◦SYNC 

동기적 인 쓰기 (물리적 인 쓰기를 완료할 때까지 차단됨) 

FASYNC 

신호를 통해 비 동기 적 으로 입 출력알림 

◦—DIRECT 

직접 I 八)전송(핵심부완충을 하지 않음) 

O.LARGEFTLE 

큰 파일 (2GB 보다 큰 경 우) 

◦—DIRECTORY 

파일이 등록부가 아니면 실패함 

0_N0F0LL0W 

경로이름에서 기호련결을 따라가지 않음 


LAST_ROOT 기 발은 전체 적 인 경 로명탐색 연산이 시 작할 때 pa 比 i_lookup() 이 설 
정 하는 초기 값이 다. (《경 로명 탐색》에 서 시 작부분에 있는 설명 을 참고) 


전체 경로명이 《/》으로 판명되면 핵심부는 last_type 마당의 초기값을 변경하지 
않는다. 

LAST_BIND 기발은 특수파일체계에 있는 기호련결의 followjink i 마디객체의 메 
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쏘드에 의해 설정된다. 

last_type 마당의 다른 값들은 LOOKUP _ PARENT 기발이 설정 되였을 때 

link _ path _ walk () 에 의해 설정된다. 

이 경우 함수는 앞의 7단계까지 같은 단계를 실행한다. 그러나 7단계 이후부터 마 
지막구성요소에 대한 탐색연산은 다르게 실행한다. 

① nd -> last 를 마지막구성요소의 이름으로 설정한다. 

② nd -> last _ type 을 LAST _ NORM 으로 초기 화한다. 

③ 마지막구성요소의 이름이 《.》이면 nd -> last _ type 를 LAST _ DOT 로 설정한다. 

④ 마지막구성요소의 이름이 《..》이면 n d -> last _ type 를 LAST _ DOTDOT 로 설 
정 한다. 

⑤ 0( 오유 없음)을 반환하며 완료한다. 

여기서 보는것 처 럼 마지막구성요소는 해 석하지 않는다. 따라서 함수가 완료할 때 
nameidata 자료구조의 dentry 와 mnt 마당은 마지막구성요소를 포함하고있는 등록부를 
나타내는 객체를 가리키게 된다. 

3) 기호련결람색 

기 호련결은 다른 파일의 경 로명 을 저 장하고있는 정 규파일 이 라는 사실을 기 억 할것 이 다. 

저장하고있는 경로명도 다시 기호련결을 포함할수 있으며 이런 경우도 핵심부가 해 
석해 야 한다. 

례를 들어 / foo/bar 가 ../dir 를 가리키는 기호련결이라면 핵심부는 경로명 
/ foo / bar / file 을 해석하여 / dir / file 을 참조하게 해야 한다. 

이 실례에서 핵심부는 두가지 탐색연산을 실행해야 한다. 

첫 번째는 / foo / bar 를 해 석 하는것 이 다. 

핵심부는 bar 가 기호련결의 이름이라는 사실을 발견하면 그 내용을 읽어 다른 경로 
명으로 해석해야 한다. 

두번째 경로명해석은 첫번째 연산결과 도달한 등록부에서 시작하며 기호련결경로명 
이 마지막구성요소를 해석할 때까지 실행한다. 

이어서 두번째람색연산이 도달한 등록부입구점으로부터, 원래 탐색연산의 실행이 원 
래 경로명의 기호련결이후 구성요소들을 해석한다. 

이런 실행순서를 더 복잡하게 하는것은 기호련결에 포함된 경로명 이 다시 기호련결 
을 포함할수 있다는 점 이 다. 

이쯤하면 아마도 기호련결을 해석하는 핵심부코드가 무척 리해하기 어려울것이라고 
짐 작되 지 만 재 귀 호출 ( recursion ) 이 있음으로 하여 코드는 단순한편 이 다. 

그렇지만 조종하지 않은 재귀호출은 근본적 으로 위험하다. 

례를 들어 기호련결이 자기자신을 가리킨다고 하자. 

이와 같은 기호련결을 포함하는 경로명을 해석하는것은 끝없는 재귀호출에 이를것이 
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고 결국 핵심부탄창기억기자리넘침에 이르게 될것이다. 

이 문제를 해결하기 위해 현재프로쎄스의 서술자에 있는 link_count 마당을 사용한다. 

이 마당은 각 재귀호출실행직전에 증가하고 실행이후에 감소한다. 마당의 값이 5 에 
이르면 전체 람색연산이 완료되며 오유코드를 반환한다. 

따라서 기호련결의 최대값은 5 이다. 

또 현재프로쎄스의 서술자의 total_link_count 마당이 원래 탐색연산에서 얼마나 많 
은 기호련결을 거쳤는지 파악한다. 

이 계수기 가 40 에 이르면 람색 연산을 끝낸다. 이 계수기가 없다면 악의적 인 사용자 
가 아주 많은 련속된 기 호련결을 포함하는 나른 경로명을 생성 하여 핵심부가 아주 오래 
동안 탐색연산을 계속하도록 할수 있다. 

탐색코드는 기본적으로 다음과 같이 동작한다. 

link_pa 比 i_walk() 함수가 경로명의 구성요소에 대응하는 등록부입구점객체를 가져 
오고 대응하는 i 마디객체가 독자적 인 follow_link 메쏘드를 가지는지 검사한다. (《 표준 
경로명 람색》의 ⑤-작참고) 메쏘드를 가진다면 i 마디는 원래의 경로명의 람색 연산을 계 
속 진행하기 전에 해석해야 하는 기호련결을 포함하고있는것 이다. 

이 경우 link_pa 比 i_walk() 함수는 기호련결의 등록부입구점객체의 주소와 

nameidata 자료구조의 주소를 변수로 do_follow_link() 를 호출한다. 

이어서 do_follow_link() 는 다음의 단계를 실행한다. 

① current->link_count 가 5 보다 작은지 검사한다. 그렇지 않으면 ELOOP 
오유코드를 반환한다. 

② current->total_link_count 가 40 보다 작은지 검사한다. 그렇지 않으면 
ELOOP 오유코드를 반환한다. 

③ current_>need_resched 기 발이 설정 되 여 있으면 schedule () 을 호출하여 현재 프 
로쎄스를 선취 (preempt) 할 기회를 준다. 

④ cureent->link_count 와 current->total_link_count 를 1 씩 증가시 킨다. 

⑤ 해석할 기호련결에 대응하는 i 마디객체의 접근시간을 갱신한다. 

⑥ 등록부입구점객체의 주소와 nameidata 자료구조의 주소를 변수로 follow_link 메 
쏘드를 호출한다. 

⑦ current->link_count 마당을 감소시 킨다. 

⑧ follow_link 메 쏘 드가 반환한 

⑨ 오유 코드를 반환한다. (0 이면 오유가 없는것이다.) 

⑩ follow_link 메 쏘드는 파일체계의 독자적 인 함수로 디스크의 기 호련결에 저장된 
경로명을 읽 어 야 한다. 

기호련결의 경로명을 완충기에 채운 다음 대부분의 follow_link 메쏘드는 

vfs_follow_link() 함수를 호출하고 이 함수의 결과를 반환한다. vfs_follow_link() 는 
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다음과 갈은 작업을 수행한다. 

① 기호련결경로명의 첫번째문자가 빗선기호인지 검사한다. 빗선기호면 현재 프로쎄 
스의 뿌리등록부를 가리키도록 nameidata 자료구조의 dentry 와 mnt 마당을 설정한다. 

② nameidata 자료구조를 변수로 link_path_walk() 를 호출하여 기 호련결경로명을 
해석 한다. 

③ link_pattr_walk() 에서 받은값을 반환한다. 

do_follow_link() 가 완전히 끝나면 이 함수는 기호련결이 가리키는 등록부입구점 
객체의 주소를 link_path_walk() 에 반환한다. 

link_pa 比 i_walk() 는 이 주소를 entry 국부변수에 대 입 하고 다음 단계 로 넘어 간다. 

7. VFS 체계호출실현 

이절의 처음에서 보았던 실례를 다시 보자. 사용자가 MS-DOS 파일 
/floppy/TEST 를 Ext2 파일 /tmp/test 에 복사하는 월명 령 을 실행한다. 

월은 cp 와 같은 외부프로그람을 실행하고 이 프로그람은 다음과 같은 코드를 실행 
한다고 가정한다. 

inf = open( /floppy/TEST , 0_RD0NLY, 0)； 

outf = open( “/tmp/test” , 0_WR0NLY10_CREAT 10_TRUNC, 0600)； 

do{ 

len = read (inf, buf, 4096); 
write (outf, buf, len); 

} while (len) : 
close (outf); 
close (inf) : 

사실 실제 cp 프로그람의 코드는 매 체계 호출에서 반환하는 오유코드를 검사해 야 하 
기때문에 더 복잡하다. 

이 실 례 는 copy 연산의 정 상적 인 동작에 만 초점 을 맞춘것 이 다. 

1) open () 체계호출 

open () 체계호출은 sys_open() 함수가 처리하는데 이 함수는 열려는 파일경로명 
filename 과 접근방식기발 flags 그리고 파일을 생성해야 하는 경우에는 접근권한비트마 
스크 mode 를 변수로 받는다. 

체계호출이 성공하는 경우 파일서술자 즉 파일객체에 대한 지적자배렬인 current- 
>files->fd 의 색 인값을 반환한다. 

실패하는 경우 1을 반환한다. 

실례에서는 openO 을 두번 호출한다. 

처음에 /floppy/TEST 읽기 위해 열고 (CLRDONLY 기발) 그 다음 /tmp/test 를 
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쓰기 위 해 연다 . (0_ WR 0 NLY 기 발.) 

/ tmp / test 가 존재하지 않는다면 파일을 생성하고 (0_ CREAT 기발) 소유자에 대해 
배타적인 읽기, 쓰기접근권한만 허용한다. (세번째 변수의 8진수 0600) 

파일 이 이미 있다면 파일내용을 모두 지우고 다시 쓰기를 시작한다. (0_ TRUNC 기 
발) 표 2-17 은 openO 체계호출의 모든 기발을 보여준다. 


S 2-17. openO 제계^7【발 


기발이름 

설명 

O.RDONLY 

읽기용으로 파일열기 

CLWRONLY 

쓰기용으로 파일열기 

O.RDWR 

읽기/쓰기용으로 파일열기 

0 CREAT 

파일이 존재하지 않으면 생성 

O.EXCL 

◦ CREAT 와 함께 사용하며 파일이 이미 존재하면 실패 

CLNOCTTY 

파일을 조종말단으로 간주하지 않음 

0 TRUNC 

파일내용을 자름 (기존의 모든 내용을 삭제 함) 

◦—APPEND 

언제 나 파일의 끝에 쓰기를 수행 함 

0 N 0 NBL 0 CK 

파일에 대 해서 어 떤 체계호출도 차단되지 않음 

CLNDELAY 

0 N 0 NBL 0 CK 과 같음 

0 SYNC 

동기 적 인 쓰기 (물리 적 인 쓰기 를 완료할 때 까지 차단됨 ) 

FASYNC 

신호를 통해 비 동기 적 으로 입 출력알림 

◦—DIRECT 

직접 I 八)전송 (핵심부완충을 하지 않음) 

O.LARCEFILE 

큰 파일 (2 GB 보다 큰 경우) 

◦—DIRECTORY 

파일이 등록부가 아니면 실패함 

0_ N 0 F 0 LL 0 W 

경로이름에서 기호련결을 따라가지 않음 


이제 sys _ open () 함수의 동작을 살껴보자. 함수는 다음과 같은 과정을 수행한다. 

① getnameO 을 호출하고 프로쎄스주소공간에서 파일경로명을 읽는다. 

② get _ unused _ fd () 를 호출하여 current -> files -> fd 에서 빈공간을 찾는다. 대응 
하는 색 인값(새 로운 과일서술자)를 fd 국부변수에 저장한다. 

③ 경로명 , 접근방식 기 발 그리 고 접 근권 한비 트마스크를 변수로 file_open () 함수를 
호출한다. 이 함수는 다음과 같은 과정을 거친다. 

n . 접근방식기발을 namei _ flags 에 복사하는데 접근방식기발인 0_ RD 0 NLY , 
0_ WR 0 NLY , 0_ RDWR 를 경로명람색함수가 요구하는 형식으로 변환한다. (《경로 
명탐색》참고) 
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i 一. 경로명， 변경된 접근방식기발, nameidata 자료구조를 변수로 

open _ namei () 함수를 호출한다. 함수는 다음과 같이 람색연산을 수행한다. 

• 접 근방식 기 발에 CLCREAT 가 설정 되 여있지 않으면 LOOKUP _ PARENT 기 
발을 설정 하지 않고 탐색연산을 시 작한다. 0_ N 0 F 0 LLC ) W 기 발이 설정 되 여있지 
않을 때 에만 LOOKUP _ FOLLOW 기 발을 설정 한다. 0_ DIRECT 0 RY 기 발이 설정 
되 여 있을 때 에만 LOOKUP _ DIRECTORY 기 발을 설정한다. 

• 접 근방식 기 발에 CLCREAT 기 발이 설 정 되 여 있 으면 LOOKUP _ PARENT 기 
발을 설 정하여 탐색연산을 시 작한다. 

pa 仕 i _ walk () 에서 성공적으로 돌아오면 요청한 파일이 이미 존재 하는지 검사 
한다. 

존재하지 않는다면 부모 i 마디의 creat 메쏘드를 호출하여 새로운 디스크 i 마디 
를 할당한다. 

open _ namei () 함수는 람색연산이 찾은 파일에 대해 여러가지 보안검사를 실행 
한다. 

례를 들어 찾은 등록부입구점객체에 대응하는 i 마디가 정말 존재하는지, 정규 
파일인지，현재프로쎄스가 접근방식기발에 따라 이 과일을 사용할수 있는지 등을 
검사한다. 

쓰기용으로 과일을 여는 경우 이미 다른 프로쎄스가 파일에 잠그기를 걸었는 
가를 검사한다. 

c . 접근방식기발, 등록부입구점객체의 주소，탐색연산이 찾은 탑재된 파일체 
계객체를 변수로 dentry _ open () 함수를 호출한다. 이 함수는 다음을 수행한다. 

• 새로운 파일객체를 할당한다. 

• 파일객체의 f_flags 마당과 f_mode 마당을 openO 체계호출에 전달된 접근방 
식기 발에 따라 초기화한다. 

• f_dentry 와 fl_vfsmnt 마당을 변수로 받은 등록부입구점객체의 주소와 탑 
재된 파일체계객체에 따라 초기화한다. 

• f_op 마당을 대응하는 i 마디객체의 i_fop 마당의 내용으로 설정한다. 

이것으로 이 후 파일연산을 위한 메쏘드설정은 끝났다. 

• 파일객체를 파일체계의 초블로크의 s_files 마당이 가리키는 열린 파일의 목 
록에 삽입한다. 

• CLDIRECT 마당이 설정 되 여 있으면 디 스크접 근완충기 를 미 리 할당한다. 

. 파일연산의 0 p en 메쏘드가 정의되 여있으면 호출한다. 

s . 파일객체의 주소를 반환한다. 

current -> files -> fd [ fd ] 값을 dentry _ open () 이 반환하는 파일객체의 주소로 설 
정 한다. 
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fd 를 반환한다. 

2) read () 와 write 0체계호출 

다시 cp 실례코드로 돌아가자. 

두 open 0체계호출은 파일서술자를 하나씩 반환하여 각각 inf 와 outf 변수에 저장 
한다. 

프로그람은 순환을 돌기 시작한다. 매 반복과정에서 / floppy/TEST 파일의 일부를 
지역완충기에 복사하고 (read () 체계호출) 지역완충기의 자료를 / tmp/test 에 기록한다. 
(write () 체 계 호출) 

readO 와 writeO 체계호출은 아주 류사하다. 

둘다 다음과 갈은 세 변수를 요구한다. 

즉 파일서술자 fd , 기억기령역(전송할 자료를 포함한 완충기)주소 buf 그리고 얼마 
나 많은 완충기를 전송해 야 하는가를 나타내는 수자 count 이 다. 

물론 readO 는 자료를 파일에서 완충기로 전송하고 writeO 는 반대로 동작한다. 

두 체계호출은 성공적으로 전송한 바이트수를 반환하거나 오유조건을 나타내기 위해 
1을 반환한다. 

count 보다 작은 반환값이 오유가 발생하였다는 사실을 의미 하지는 않는다. 

핵심부는 요청한 바이트를 모두 전송하기 전에도 체계호출을 완료할수 있으므로 사용 
자응용프로그람은 반드시 반환값을 검사하여 필요하다면 체계 호출을 다시 호출해 야 한다. 

대개 관이나 말단장치에서 읽는 경우 파일의 끝 ( EOF ) 을 지나 읽는 경우 또는 신호 
가 체계호출을 새치기한 경우에 작은 값을 반환한다. 

파일의 끝 ( EOF ) 조건은 readO 에서 반환하는 0값으로 쉽게 판별할수 있다. 

이 조건은 readO 가 아무런 자료도 읽기전에 신호에 의해 새치기한 경우 오유가 발 
생 하므로 신호에 의한 비정상완료와 혼동되지 않는다. 

read 와 write 연산은 언제나 현재파일지적자(파일객체의 f_pos 마당)가 나타내는 파일 
편위에서 시작한다. 

두 체계호출은 전송한 바이트수만큼 파일객체에 값을 더해 갱신한다. 

요약하면 sys _ read () (readO 의 봉사루린)와 sys _ write(writeO 의 봉사루린)은 거 
의 갈은 과정을 거친다. 

① fgetO 를 호출하여 fd 로부터 대응하는 파일객체의 주소 file 을 얻고 사용계 

수기 file -> f_count 를 증가시 킨다. 

② 요청 한 접근을 허 용하는지 file -> f_mode 기 발을 검사한다. (read 또는 write 

연산) 

後) locks _ verify _ area () 를 호출하여 접 근할 파일 범위에 대해 《 강제 적열쇠 잠그 

기 (mandatory lock ) ) 가 존재 하는가를 검 사한다. ( 《 파일 잠그기》참고) 

④ 파일을 전송하기 위해 file -> f _ op->read 또는 file -> f _ op->write 를 실행한 
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다. 두 함수는 실제로 전송한 바이트수를 반환한다. 부가적으로 파일지적자로 갱신 

한다. 

⑤ fput () 를 호출하여 사용계수기 file -> f _ count 를 감소시 킨다. 

⑥ 실제로 전송된 바이트수를 반환한다. 

3) close 公체계호출 

실례코드의 순환은 readO 체계호출이 0 을 반환하면 끝난다. 

즉 /floppy/TEST 의 모든 바이트를 /tmp/test 로 복사하면 끝난다. 

이제 복사연산을 완료했으므로 프로그람은 열린 파일을 닫을수 있다. 

closeO 체계호출은 닫으려는 파일의 서술자의 fd 를 변수로 받는다. 

sys_close() 봉사루린은 다음과 같은 연산을 수행한다. 

① current->files->fd[fd] 에 저장한 파일객체주소를 얻는다. NULL 이라면 오유 
코드를 반환한다. 

② current->files->fd[fd] 를 NULL 로 설정한다. 이에 대응하는 비트를 open_f 
ds 와 current->files 의 close_on_exec 마당에서 지워서 파일서술자 fd 를 해제한다. 

③ filp _ close () 를 호출하여 다음과 같은 연산을 수행 한다. 

1, 파일 연산의 flush 메 쏘드가 정 의 되 여 있 다면 이 것 을 실 행 한다. 

ᄂ, 파일에 대해 모든 강제적잠그기를 해제 한다. 

e . fputO 를 실행하여 파일객체를 해제한다. 

④ flush 메 쏘드의 오유코드를 반환한다.(일 반적 으로 0이 다.) 

8. 파일잠그기 

프로쎄스 두개이상이 한 파일에 접근하는 일이 가능한 경우 동기화 

(synchroniza 吐 on) 문제가 발생 한다. 

두 프로쎄스가 같은 파일위치에 쓰기를 시도하면 어떻게 되는가? 혹은 한 프로쎄스가 
쓰기 작업 중인데 다른 프로쎄 스가 같은 위 치 에 서 읽기 작업을 수행 하면 어떻게 될것 인가? 

전통적인 Unix 체계에서는 같은 파일위치에 동시에 접근하는 일은 예측할수 없는 
결과를 낳았다. 그렇지만 Unix 체계는 프로쎄스가 파일령역에 열쇠를 걸수 있도록 하여 
동시접근을 쉽게 피할수 있도록 하였다. 

POSIX 표준은 fcntlO 체계 호출을 사용한 파일잠그기기구를 요구한다. 

이 체계호출은 임의의 파일령 역 (1 B 까지도) 또는 (앞으로 뒤 에 덧붙일 자료를 포함 
한) 전체 파일에 열쇠를 걸수 있다. 

프로쎄스가 파일의 일부분에 열쇠를 걸수 있기때문에 같은 파일내에서도 열쇠를 여 
러개 사용할수 있다. 

이 종류의 잠그기는 잠그기를 무시하는 다른 프로쎄스를 막을수 없다. 

코드의 《 림계 령 역 (critical region ) ) 과 마찬가지로 이 런 잠그기를 《 권고적 
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( advisory ) 》이 라고 하는데 다른 프로쎄 스가 파일 에 접 근하기 전에 잠그기 의 존재 를 검 
사하지 않으면 정상적으로 동작할수 없기때문이다. 

따라서 POSIX 의 잠그기를《권고적잠그기 (advisory lock )》 이라고 부르기도 한다. 

전통적 인 BSD 계렬은 flockO 체계호출을 사용하여 권고적잠그기를 실현한다. 

이 체계호출은 프로쎄스의 잠그기를 파일의 일부령역이 아닌 전체 파일에 대해서만 
허 가한다. 

전통적인 System V 계렬체계는 lockfO 체계호출을 제공하는데 이것은 단지 
fcntlO 에 대 한 대 면부이다. 

더 중요한것은 System V Release 3( SVR 3) 에 서 강제 적 잠그기 (mandatory lock ) 
를 도입하였다는 사실이다. 

openO , readO 그리고 writeO 체계호출을 실행하면 핵심부는 접근하려고 하는 파 
일에 대해 강제적잠그기를 침범하지 않았는지 검사한다. 

따라서 서로 협 력 하지 않는 프로쎄 스들도 강제 적 잠그기 를 지 키 게 된다. 

파일에 대해 강제적잠그기를 사용하도록 표시하기 위해 set _ group 비트 ( SGID ) 를 
설정하고 그를실행허가비트를 0으로 설정한다. 

그룹실행 비트가 0으로 되 여있으면 set _ group 비트는 의미 가 없으며 핵심부는 이 조 
합을 권고적잠그기 가 아닌 강제적 잠그기를 사용하라는 암시로 해석 한다. 

프로쎄 스가 권고적잠그기 를 사용하든 강제 적잠그기 를 사용하든, 공유읽 기잠그기 와 
배타적쓰기잠그기를 사용할수 있다. 

많은 프로쎄스가 같은 파일 령역에 대해서 읽기잠그기를 가질수 있으나 한 순간에 
한 프로쎄스만 쓰기 잠그기를 가질수 있다. 

그리고 다른 프로쎄스가 같은 파일령역에 대해 읽기잠그기를 가지고있을 때 쓰기잠 
그기를 얻을수 없고 그 반대 경우도 마찬가지 이 다. (표 2-18) 

표 2-18. 잠그기 허용 W 學 


현재 잠그기 

허용여부 

읽기 

쓰기 

잠그기가 없음 

예 

예 

읽기 잠그기 

예 

아니 

쓰기 잠그기 

아니 

아니 


1) Linux 파일잠그기 

Linux 는 모든 종류의 파일잠그기를 지원한다. 권고적잠그기, 강제적잠그기를 제공 


하며 fcntlO , flockO , lockfO 체계호출을 모두 지원한다. 

그러나 lockfO 체계호출은 단지 래퍼 ( wrapper ) 루린이므로 여기서 설명하지 않는다. 
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fcntlO 의 강제적 잠그기는 mountO 체계 호출의 MS_MANDLOCK 기발 (mand 항 
목) 을 사용하여 파일 체 계단위 로 활성 화/비 활성 화할수 있 다. 

기본적으로는 강제적잠그기를 활성화하지 않는다. 이 경우 fcntlO 은 권고적잠그기 
를 생성한다. 

기발을 설정한 경우 파일의 set_group 비트가 설정되여있고 그룹실행비트가 설정되 
여있지 않으면 fcntlO 은 강제적잠그기를 생성한다. 

그렇지 않으면 잠그기를 생성한다. 

이 전 판본의 Linux 에 서 flockO 체 계 호출은 MS_MANDLOCK 탑재 기 발과 관계 없 
이 권고적잠그기를 생성하였다. 

이것은 모든 Unix 계렬 조작체계의 기본적 인 동작방식이 다. 

그러나 Linux 2. 6에서 flockO 의 강제적잠그기라는 특수한 종류의 잠그기를 추가 
하였다. 

이것은 일부 전용망파일체계실현을 제대로 지원하려고 추가한것이다 . 

이 잠그기는 공유방식 강제적잠그기라고도 불리운다. 잠그기를 설정하면 다른 프로 
쎄스는 이 잠그기의 접근방식과 충돌할수 있는 파일을 열지 못한다. 

이 기능을 사용하면 원천코드의 호환성이 떨어지므로 Unix 응용프로그람개발에 사 
용하지 않는것이 좋다. 

또한 Linux 2. 6에서는 《lease》 라는 또 다른 flockO 기반의 강제적인 잠그기를 
해제하는 기능을 추가하였다. 

lease 로 보호한 과일을 다른 프로쎄스가 열려고 하면 다른 경우와 마찬가지로 차단 
되지만 잠그기를 소유한 프로쎄스가 신호를 받는다. 

신호를 받은 프로쎄스는 먼저 내용의 일관성을 유지하기 위해 디스크의 파일을 갱 신 
하고 잠그기를 풀어 야 한다. 

소유한 프로쎄스가 체계 에 정의된 시간간격(초단위수를 /proc/sys/fs/lease- 
break-time 에 기록하면 되며 보통 43s 이 다)동안 잠그기를 풀지 않으면 핵심부가 lease 
를 자동적으로 제거하고 차단된 프로쎄스의 실행을 허가한다. 

read() ， write() 체 계 호출내 부에 서 의 검 사외 에 도 핵 심 부는 파일 내 용을 변경 할 가능 
성 이 있는 모든 체계 호출을 처리 할 때 강계적 잠그기의 여부를 검사한다. 

례 를 들어 파일 에 강제 적 잠그기 가 존재하는 경 우 0_TRUNC 기 발을 설정하여 
openO 체계호출을 실행하면 실패한다. 

fcntlO 이 만드는 잠그기는 FL_POSIX 류형이지만 flockO 가 만드는 잠그기는 
FL_LOCK, LOCK_MAND (공유방식잠그기 의 경 우) , FL_LEASE(lease 의 경 우) 류형 
이다. 

fcntlO 을 통해 생성한 잠그기는 flockO 를 통해 생성한 잠그기와 안전하게 공존할 
수 있으면 서로에 어떤 영향도 주지 않는다. 
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따라서 fcntlO 로 잠그기한 과일은 flock 0 로는 잠그기가 걸러지 않은것처럼 보이 
며 반대경우도 마찬가지다. 

다음 부분에서 핵심부가 파일잠그기를 처리하기 위해 사용하는 주요 자료구조를 설명 
한다. 

그 다음 두 부분은 주요잠그기 류형 인 FL_POSIX 와 FL_FLOCK 의 차이 점 을 본다. 


2) 파일잠그기자료구조 

file_lock 자료구조는 파일잠그기를 나타낸다. 

자료구조마당은 표 2-19 에 있다. 모든 file_lock 자료구조는 2 중련결목록으로 구성된다. 
flle_lock_list 가 첫번째 항목의 주소를 나타내며 fl_nextlink, fl_prevlink 마당이 
목록에서 린접한 항목의 주소를 저장한다. 


g 2-19. _ flle_lock 자료구조와 □[당 


형 

마당 

설명 

struct file lock* 

fl next 

i 마디 목록의 다음 요소 

struct list head 

fl link 

대역목록 지시자 

struct list— head 

fl block 

프로쎄 스목록 지 시 자 

struct flies struct* 

fl owner 

소유자의 files struct 

unsegnde int 

fl pid 

프로쎄 스소유자의 PID 

wait— qucue head t* 

fl wait 

차단된 프로쎄스의 대기렬 

struct file* 

fl file 

파일 객 체 지 시 자 

unsigned char 

fl flage 

잠그기 기발 

unsignedchar 

fl type 

잠그기 류형 

loff t 

fl start 

잠그기상태령역 시작편위 

loff t 

fl end 

잠그기상태령역 끝편편위 

void (*) (struct file_lock*) 

fl_notify 

잠그기 가 해제 되였을 때 호출하 
는 되돌이호출 (Call-Back) 함수 

void (*) (struct file_lock*) 

fl_inscrt 

잠그기 sj 삽입 되 였을 때 호출하 
는 되돌이호출 (Call-Back) 함수 

void (*) (struct file_lock*) 

fl_remove 

잠그기가 제거되였을 때 호출하 
는 되돌이호출 (Call-Back) 함수 

struct fasyne struct* 

fl fasync 

lease 중단을 알려는데 사용 

union 

fl_u 

파일체계별 정보 
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디스크의 같은 파일을 가리키는 모든 file_lock 자료구조는 단순련결목록을 구성한다. 

i 마디객체의 i_flock 마당이 첫번째 항목을 가리키고 file_lock 구조체의 fl_next 마당 
이 목록의 다음 항목을 가리킨다. 

프로쎄스가 권고적잠그기 또는 강제적잠그기를 엄으려고 할 때 같은 파일령역에 대 
해 이전에 할당한 잠그기가 해제될 때까지 프로쎄스가 보류 (suspended) 될수 있다. 

같은 잠그기에 대해 잠들어있는 (sleeping) 모든 프로쎄스는 대기렬 (wait queue) 
에 들어간다. 

file_lock 구조체의 fl_wait 마당이 대기행렬의 머리부를 가리킨다. 

그리고 어떤 파일잠그기에 대해 잠들어있는 모든 프로쎄스를 원형2중련결목록에 삽 
입한다. 

목록의 머 리부는 허수아비요소로 block_list 변수에 저 장되 여있으며 file_lock 자료 
구조의 fl_block 마당에 목록에서 린접한 요소의 지적 자를 저장한다. 

3) FL_LOCK 잠그기 

FL_LOCK 는 언제 나 파일객체 와 련관되 며 따라서 특정 프로쎄 스(또는 동일 한 열린 
파일을 공유하는 복제프로쎄스들)가 관리한다. 

잠그기를 요청하여 허가밤으면 핵심부는 이 프로쎄스가 같은 파일객체 에 대해 가지 
고있는 모든 다른 잠그기 를 대 체한다. 

이 런 경 우는 프로쎄 스가 이 미 소유한 읽 기잠그기 를 쓰기잠그기 로 바꾸러 고 하거 나 
그 반대 경 우에 발생한다. 

그러고 fputO 함수로 파일객체를 해제하면 이 파일객체를 참조하는 모든 
FL_LOCK 잠그기 가 해 제 된 다. 

그렇지 만 같은 파일 (inode) 에 대 해 다른 프로쎄 스가 설정 한 FL_LOCK 읽 기잠그기 
가 있을수 있는데 이것들은 활성상태로 남는다. 

flockO 체계호출은 변수 두개를 받는다. 

잠그기하려는 파일의 과일서술자 fd 와 잠그기연산을 지정하는 cmd 이다. 

cmd 변수값중에서 LOCK_SH 는 읽기를 위한 공유잠그기를, LOCK_EX 는 쓰기를 
위한 배 타적 잠그기 를 엄 고 LOCK_UN 은 잠그기 를 해 제 한다. 

만약 LOCK_NB 값을 LOCK_SH 또는 LOCK_EX 에 론리합 OR 로 추가하면 체 계 
호출은 차단되지 않는다. 

만약 즉시 잠그기를 엄을수 없다면 체계호출은 오유코드를 반환한다. 

기억할 점은 파일안에서 령역을 지정할수 없다는 사실이다. 

잠그기는 언제 나 과일전체 에 적용된다. 

sys_flock() 봉사루린은 다음과 같은 단계로 실행한다. 

① fd 가 유효한 파일서술자인지 검사한다. 그렇지 않으면 오유코드를 반환한다. 대 
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응하는 파일객체의 주소를 얻는다. 

② 프로쎄스가 권고적잠그기를 획득하려는 경우 프로쎄스가 열린 파일에 대한 읽기 
나 쓰기권한(또는 둘다)이 있는지 검사한다. 그렇지 않으면 오유코드를 반환한다. 

運) flock _ lock _ file () 을 호출한다. 파일객체지적자 filp , 요청하는 잠그기연산의 류 
형 type , wait 기발을 변수로 전달한다. 마지막 변수는 체계호출이 차단되는 경우 
( LOCK_NB 가 설정 되 지 않은 경 우) 1이 고 그렇지 않으면 ( LOCK_NB 가 설정 된 경 우) 0 
이 다. 이 함수는 다음과 같은 작업 을 차례 로 수행한다. 

1. 잠그기를 획득해야 하는 경우 새로운 file _ lock 객체를 얻어서 잠그기연산에 따 
라 채운다. 

1여;.. : filp -> f _ dentry -> d _ indoe -> i _ flock ; 가 가리키는 목록을 람색한다. 

변수의 파일객체와 같은 파일에 대해 FL_LOCK 잠그기가 있으며 잠그기해제를 요 
청한 경우이면 i 마디목록과 대역목록에서 file _ lock 항목을 제거하고 이 잠그기의 대기렬 
에 서 잠들어 있는 모든 프로쎄 스를 깨 우고 file _ lock 구조체 를 해제 하고 되돌이 한다. 

c . 그렇지 않으면 다시 i 마디 목록을 탐색 하여 존재 하는 FL_LOCK 중에 요청 한것과 
충돌하는것이 없는지 확인한다. 

i 마디 목록에는 FL_LOCK 쓰기 잠그기가 없어 야 하고 지 금 요청된 작업 이 쓰기 잠그기 
인 경우에는 FL_LOCK 잠그기가 아무것도 없어야 한다. 

그렇 지 만 프로쎄 스는 flockO 체 계호출을 다시 호출하여 자신이 이 미 획 득한 잠그기 
류형을 변경할수 있다. 

따라서 핵심부는 언제나 프로쎄스가 같은 파일객체를 참조하는 잠그기를 변경하도록 
허 잠그기 한다. 

충돌하는 잠그기를 발견했고 LOCK_NB 기발을 1로 지정한 경우 오유코드를 반환한다. 

그렇지 않으면 현재프로쎄스를 차단된 프로쎄스의 원형목록에 삽입하고 프로쎄스를 
보류한다. 

s . 비 호환성 (충돌) 이 없 다면 file _ lock 구조체 를 대 역 잠그기 목록과 i 마디 목록에 삽 
입하고 0( 성공)을 반환한다. 

④ flock _ lock _ file () 의 반환코드를 반환한다. 

4) FL_POSIX 잠그기 

FL_POSIX 잠그기는 언제 나 한 프로쎄스와 한 i 마디의 조합을 대상으로 한다. 

잠그기 는 프로 쎄 스가 죽거 나 파일서 술자가 닫히 면 (프로 쎄 스가 같은 파일 을 두번 열 
었거 나 파일서술자를 복제한 경우에도) 자동으로 해제된다. 

또한 FL_POSIX 잠그기는 절대로 forkO 를 통해 자식프로쎄스에 상속하지 못한다. 

fcntlO 체계호출은 파일잠그기에 사용할 때 변수 세개를 받는다. 

열쇠를 걸려는 파일의 파일서술자 fd , 잠그기연산을 지정하는 변수 cmd 그리고 
flock 구조체 를 가러 키는 지적 자 f 1 이 다. 
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Linux 판본 2. 6은 flock 64 구조체를 정의하고있는데 이 구조체는 파일편위와 같이 
마당을 위해 64비트마당을 사용한다. 

여기서는 flock 자료구조위주로 설명하지만 flock 64 에도 똑같이 적용된다. 
FL _ POSIX 류형의 잠그기는 임의의 파일령역에 열쇠를 걸수 있다. 

심지어 1바이트까지도 가능하다. 

령역은 flock 구조체의 세 마당을 사용하여 지정한다. 

l _ start 는 령역의 시작편위 이고 파일의 처음위치 ( l_whence 마당을 SEEK _ SET 로 
설정한 경우), 현재 파일지적자 ( l _ whence 마당을 SEEK _ CUR 로 설정한 경우)，파일의 
끝 ( l _ whence 마당을 SEEK _ END 로 설정한 경우)에서부터 상대적인 값이다. 

l _ len 마당은 파일령역의 길이를 지정한다. (0 을 지정하면 령역은 현재 파일의 끝 이 
후에 대한 모든 쓰기를 포함한다.) 

sys _ fcntl () 봉사루린은 cmd 변수에 설정한 기발값에 따라 다르게 동작한다. 
F_GETLK 

flock 구조체로 서술한 잠그기가 이미 다른 프로쎄스가 획득한 FL _ POSIX 잠 
그기와 충돌하는지 검사한다. 

충돌하는 경우 flock 구조체를 충돌하는 잠그기의 정보로 채운다. 

F_SETLK 

flock 구조체가 서술하는대로 잠그기를 설정한다. 잠그기를 획득할수 없으면 
체계호출은 오유코드를 반환한다. 

F_SETLKW 

flock 구조체가 서술하는대로 잠그기를 설정한다. 잠그기를 획득할수 없으면 
체계호출은 차단된다. 

즉 호출한 프로쎄스는 잠든다. (sleep 호출) 

F — GETLK 64， F _ SETLK 64, F — SETLKW 64 

flock 대신 flock 64 자료구조를 사용하는것외에는 앞의 설명과 같다. 
sys _ fcntl () 은 잠그기를 획득하기 위 해 다음과 갈은 과정을 수행 한다. 

① 사용자공간에서 flock 구조체를 읽는다. 

② fd 에 대응하는 파일객체를 얻는다. 

③ 잠그기 가 강제 적 이 여 야 하는 경 우 파일 이 공유기 억 기 배 치 를 가지 고있는지 
검사한다. 공유기억기배 치를 가지고있으면 잠그기생성을 거절하고 EAGAIN 오유 
코드를 반환한다. 이미 다른 프로쎄스가 파일을 사용하고있는 경우이다. 

© 사용자의 flock 구조체에 따라 새로운 file _ lock 구조체를 초기화한다. 

© 요청 한 잠그기 류형 이 지 정 하는 접 근방식 을 파일 이 허 가하지 않는 경 우 오 
유코드를 반환하고 완료한다. 

⑥ 파일연산에 lock 메쏘드가 정의되여있다면 호출한다. 
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© posix _ lock _ file () 함수를 호출하여 다음 작업을 수행 한다. 

n . i 마디의 잠그기목록에 있는 각 FL_POSIX 잠그기에 대해 

posix _ locks _ conflict () 를 호출한다. 함수는 매 잠그기가 요청한 잠그기와 충 
돌하는지 검사한다. 핵심은 i 마디목록안의 같은 령역에 대해 FL _ POSIX 쓰기잠 
그기가 없어야 하고 만약 프로쎄스가 쓰기잠그기를 요청하였다면 같은 령역에 
대해 FL _ POSIX 잠그기가 없어야 한다. 그렇지만 같은 프로쎄스가 소유하고있 
는 잠그기와는 충돌하지 않는다. 이렇게 함으로써 프로쎄스가 자신이 소유한 
잠그기의 특성을 바꾸는것을 허용한다. 

충돌하는 잠그기를 발견했을 때 F_SETLK 또는 F _ SETLK 64 기 
발을 설 정하여 fcntlO 을 호출한 경 우라면 오유코드를 반환한다. 그렇 지 않으 
면 현재프로쎄스를 보류해야 한다. 이 경우 posix _ locks _ deadlock () 를 호출 
하여 FL _ POSIX 잠그기를 기다리는 프로쎄스사이에 교착 ( deadlock ) 조전이 발 
생 하는지 검 사한다. 그리 고 현재 프로쎄 스를 차단된 프로쎄 스들의 원형 목록에 
삽입 하고 보류 ( suspend ) 한다. 

t 그. i 마디의 매 목록에 충돌하는 잠그기가 없으면 현재프로쎄스의 모 

든 FL _ POSIX 잠그기에 대해 현재프로쎄스가 잠그기를 엄으려는 파일령역과 
겹치는 령 역 이 없는지 검사하고 린접하는 령 역을 요청대 로 합치거 나 쪼겐다. 
례를 들어 프로쎄스가 요청한 쓰기잠그기가 이미 읽기열쇠가 걸린 더 넓은 령 
역에 포함된다면 이전의 읽기잠그기는 서로 떨어져있는 두 령역으로 나뉘고 가 
운데령역은 새로운 쓰기 잠그기가 보호하게 된다. 겹치는 령역이 발생하면 언 
제 나 새로운 잠그기가 이전것을 대신한다. 

m »： 새로운 file _ lock 구조체를 대역 잠그기 목록과 i 마디 목록에 삽입 한다. 
⑧ 0( 성공)을 반환한다. 
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제 2절. 파일접근 


파일에 접근하는것은 VFS 추상계층，블로크장치 , 디스크캐쉬사용 등을 포함하는 복잡 
한 작업 이 다. 

이 장에서는 이런 기능을 사용하여 핵심부가 파일읽기와 쓰기를 처리하는 방법을 본다. 

이 절의 기본주제는 디스크기반의 과일체계에 저장된 정규파일과 블로크장치파일에 
똑같이 적용된다. 

이제 부터 이 두 종류의 파일을 간단히 《 파일》이 라고 부론다. 

이 절에서는 특정한 파일에 대해 읽기 또는 쓰기메쏘드를 호출한 직후부터 본다. 

즉 읽 기호출에 서 요청 한 자료를 사용자방식 의 프로쎄 스에 전달하는 과정，쓰기호출 
에 서 요청한 자료를 디 스크에 전송하도록 표시 하는 과정 을 본다. 

특히 《파일읽기와 쓰기》에서는 read () 와 writeO 체계호출을 사용해서 정규파일에 
접근하는 방법을 설명한다. 

프로쎄스가 파일에서 읽기를 수행할 때 자료는 디스크에서 먼저 핵심부주소공간의 
완충기로 이동한다. 

이 완충기는 캐쉬의 폐지에 포함된다. 계속하여 프로쎄스의 사용자주소공간으로 페 
지를 복사한다. 

쓰기연산은 일부 과정이 읽기와 다르지만 기본적으로 반대로 동작한다. 

기 억기배 치 에서는 프로쎄스가 직접 정 규파일을 자기의 주소공간으로 대 응하도록 
핵 심 부에 서 허 용하는 방법 을 설명 한다. 

이 작업역시 핵심부기억기에 있는 페지를 다루는것을 포함하기때문이다. 

마지막으로 직접입출력전송에서는 자신이 직접 캐쉬를 관리하는 응용프로그람을 
핵 심부에서 어 떻게 지 원하는하는가를 살펴 본다. 


1. 파일의 읽기와 쓰기 


앞절의 《 readO 와 writeO 체계호출》에서 read 0와 writeO 체계호출의 실현방법 
을 설명하였다. 

대응하는 봉사루린은 결국 파일객체의 read 와 write 메쏘드를 호출하게 되는데 이 
것들은 매 파일체 계 마다 독립 적 이다. 

디스크기반의 파일체계의 경우 이 메쏘드들은 접근할 자료를 포함하는 몰리적인 블 
로크의 위 치를 찾아서 자료전송을 시 작하도록 블로크장치구동프로그람을 활성 화한다. 
파일 읽 기는 폐지단위 로 진행된다. 

핵심부는 언제나 전체 폐지자료를 한번에 전송한다. 프로쎄스가 몇바이트를 얻으러 
고 readO 체계호출을 했는데 자료가 RAM 에 없으면 핵심부는 새로운 페지틀을 할당하 
고 이 폐지를 파일의 적당한 부분으로 채운 다음 페지캐쉬에 추가하고 마지막으로 요청 
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한 바이트를 프로쎄스의 주소공간으로 복사한다. 

대부분의 파일체계에서 한 폐지의 자료를 읽는 과정에서 문제가 되는 부분은 디스크 
의 어떤 블로크가 요청한 자료를 담고있는지 찾는 일이다. 

이 위치를 찾으면 핵심부는 폐지입출력연산을 한두번 실행하여 해당 폐지를 채운다. 

대부분의 파일체계에서 read 메쏘드는 generic _ file _ read () 라는 공통함수를 사용하 
여 실현한다. 

디스크기반의 파일에 대 한 쓰기 연산은 약간 다루기 어 렵 다. 

파일크기가 바껄수 있으므로 핵심부가 디스크의 물리적블로크를 새로 할당하거나 해 
제 해 야 할수도 있다. 

물론 이것들을 정확히 어떻게 처리할것인가는 파일체계형에 따라 다르다. 

그렇지 만 대부분의 디 스크기 반의 파일체 계(례 를 들면 Ext 2, System V , 
Coherent , Xenix , Minix 등)에서 write 메 쏘드는 generic _ file _ write () 공통함수를 사 
용하여 실현한다. 

기록형 또는 망 파일체계 인 경우 독자적 인 함수를 사용하여 write 메쏘드를 실현한다. 

1) 파일에서 읽기 

대 부분의 디 스크기 반의 파일 체 계 의 정 규과일 과 모든 블로크장치 파일의 read 메 쏘드 
를 실현하는 generic _ file _ read () 함수를 보자. 

이 함수는 다음과 갈은 변수를 받는다. 

flip ： 파일객체주소 

desc ： 파일에서 읽은 내용을 보관하기 위한 사용자방식의 기억기령역의 
선형주소 (linear address ) 

actor ： 읽기동작을 가러키는 구조체 

ppos ： 읽기를 시작할 파일편위를 담은 변수를 가리키는 지적자(보통 filp 파일객 
체의 f _ pos 마당) 

nonblock ： 블로크장치에 대한 읽기인가를 가르킨다. 

먼 저 함수는 파일 객 체 의 0_ DIRECT 기 발이 설정 되 여 있 는가를 검 사한다. 

설정 되 여 있으면 읽 기 접 근과정 에 서 페 지 캐 쉬 를 무시 하고 건너 쥔다. 

이 경우에 관해서는《직접입출력전송》에서 설명한다. 

여기서는 0_ DIRECT 기 발이 설정되 여있지 않다고 가정한다. 

함수는 access _ ok () 를 호출하여 sys _ read () 체계 호출봉사루린에서 받은 buf 와 
count 매 변수가 옳은지 검사하고 잘못이 있으면 - DEFAULT 오유코드를 반환한다. 

모두 정상이면 generic _ file _ read () 는 읽기연산서술자(즉 진행중인 파일읽기연산의 
현재상태를 보관하는 read _ descriptor _ t 형태의 자료구조)를 할당한다. 서술자의 마당은 
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표 2-20 과 같다. 


M 2-20. 읽7 [연산서■用 ■ 


형래 

마당 

설명 

size_t 

written 

전송한 바이트수 

size_t 

count 

전송할 바이트수 

char * 

buf 

사용자방식의 완충기에서 현재 위치 

int 

error 

읽 기연산의 오유코드 (오유가 없 으면 0) 


다음으로 do _ generic _ file _ read () 함수를 호출한다. 변수에는 파일객체의 지적자 
flip , 과일편위지적자 ppos , 방금 할당한 읽기연산서술자의 주소 desc , 
flle _ read _ actor () 함수의 주소를 전달한다. do _ generic _ file _ read () 함수는 다음과 같이 
동작한다. 

① 읽으러는 파일에 해 당하는 address _ space 객체를 얻 는다. filp -> f _ dentry - 
> d _ inode -> i _ mapping 에 객체의 주소가 있다. 

② 주소공간 ( address _ space ) 을 소유한 i 마디객체를 얻는다. 객체의 주소는 
address _ space 객체의 host 마당에 있다. 이 객체는 filp -> f _ dentry -> d _ inode 가 가리 
키 는 i 마디 객 체 와 다른것 일수도 있 다. 

③ 파일의 폐지 (페지당 4096 B ) 단위자료로 나뉘어져 있다고 가정하고 파일지적자 
* ppos 로부터 요청한 첫번째 바이트를 포함하고있는 패지의 론리적인 index 를 구한다. 
그리고 폐지안에서 요청한 첫번째 바이트의 위치를 offset 에 보관한다. 

④ 파일지적자가 파일의 《미리 읽기 ( read - ahead ) 》창문안에 있는지, 밖에 있는지 
를 결정한다. 미리읽기에 대해서는《파일미리읽기》에서 설명한다. 

⑤ 요청한 desc -> count 바이트를 포함하는 모든 페지를 읽는 작업을 매 폐지에 대 
해 반복한다. 매 반복에서 함수는 다음과 같은 단계를 거처 한 패지의 자료를 읽는다. 

ᄀ. index X 4096 + offset 가 i 마디객체의 i _ size 마당에 보관된 크기를 초과하면 
반복을 끝내고 ⑥단계 로 이동한다. 

t *, 요청한 자료를 보관하고있는 폐지를 폐지캐쉬에서 찾아본다. 앞에서 설명한것 
처 럼 페 지 패 쉬 는 address _ space 객 체 의 주소와 파일 안에 서 페 지 의 위 치 (색 인)를 사용하 
여 접근할수 있는 하쉬표이다. 

I 그. 폐지가 폐지캐쉬에 없으면 새로운 폐지틀을 할당하고 add _ page _ cache () 를 호 
출하여 이 폐지 틀을 폐지 캐쉬에 삽입 한다. 폐지의 PG_uptodate 기발을 지우고 
PG _ locked 기발을 설정한다. 함수는 i 단계로 이동한다. 

3 . 여기 에 도달하면 페지 캐쉬 에서 페지를 발견한 경우이 다. 함수는 폐지서술자의 
사용계수기를 증가시킨다. 
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t = i . 폐지의 PG_uptodate 기발을 검사한다. 기발이 설정되여 있으면 페지에 보관되 
여있는 자료는 최신 ( up - to - date ) 이다. 함수는 ᄎ•단계로 이동한다. 

w . generic _ file _ readahead () 함수를 호출하여 파일 에 대 한 미 리 읽 기 연산을 활 
성화할지를 검사한다. 《파일미 리읽기》에서 보았지만 이 함수는 폐지의 다른 블로크에 
대 한 입출력자료전송을 시작할수 있다. 

A . 폐지의 자료가 유효하지 않으므로 디스크에서 자료를 읽어야 한다. 페지의 
PG_locked 기발을 설정하여 페지에 대한 배타적인 접근권한을 얻는다. 물론 이전에 시 
작한 입출력 자료전송이 아직 실행중이면 패지에 이미 열쇠 가 걸려있을수 있다. 이 경우 
페지가 잠그기에서 풀릴 때까지 잠든다. 깨여 나면 다시 PG_uptodate 기발을 검사하여 
다른 자료전송에서 펼요한 자료읽기를 실행하였는지를 검사한다. 기발이 1로 설정되여 
있으면 극단계 로 이동한다. 그렇지 않으면 읽기 작업을 계속한다. 

o . 파일의 address_space 객체의 readpage 메 쏘드를 호출한다. 메 쏘드에 대응하 
는 함수는 디스크에서 페지로의 입출력자료전송을 활성화하는 작업을 수행한다. 뒤에서 
이 함수가 정규파일과 블로크장치파일에 대해 어떤 작업을 하는지 설명 한다. 

고. 폐지의 PG_uptodate 기발을 검사한다. 입출력자료전송이 아직 끝나지 않았으 
면 기발은 여전히 0일것이다. 함수는 generic _ file _ readahead () 를 다시 호출하고 입출 
력자료전송이 완료될 때까지 기다린다. 

大. 이제는 페지에 최신자료가 들어있다. 함수는 generic _ file _ readahead () 함수를 
호출하여 파일에 대해 또 다른 미리읽기연산을 활성화할지 검사한다. 《파일미리읽기》에 
서 보았지만 이 함수는 폐지의 다른 블로크에 대한 입출력자료전송을 시작할수 있다. 

척、 mark _ page _ accessed () 를 호출하여 PG_referenced 기발을 설정 한다. 이 기 
발은 폐지가 현재 사용중이며 교환하여 내보내지 (swap out ) 말아야 함을 나타낸다. 사 
용자가 명시적으로 요청한 페지에 대해서만 이 기발을 설정한다. (즉 미 리 읽기가 아닌 
경우이다.) 

h . 이제 폐지의 자료를 사용자방식의 완충기로 복사해야 한다. 이를 위해 
do _ generic _ file _ read () 함수는 변수로 그 주소를 전달받은 file _ read _ actor () 함수를 호 
출한다. file _ read _ actor () 는 다음것들중에서 한가지 단계를 실행 한다. 

■ kmapO 를 호출하여 폐지가 기억기의 높은 주소에 위치한 경우 영구적인 
( permanent ) 핵 심 부배 치를 설정 한다. 

■ _ copy _ to _ user () 를 호출하여 폐지자료를 사용자방식의 주소공간으로 복사한다. 
이 연산은 프로쎄스를 차단할수도 있다. 

■ kunmapO 를 호출하여 폐지의 영구적인 핵심부배치를 모두 해제한다. 

■ read _ descriptor_t 서술자의 count , written , buf 마당을 갱신한다. 

고. 사용자방식의 완충기에 실제로 전송된 바이트수에 따라 index 와 offset 국부변 
수를 갱신한다. 


透資邊 @資變©^ 


109 


Linux 행심부해설서 


ᄒ. 폐지서술자의 사용계수기를 감소시 킨다. 

tt . read _ descriptor _ t 서술자의 count 마당이 0이 아니고 페지에 있는 요청한 바이 
트를 모두 사용자방식의 주소공간으로 복사하는데 성공했으면 파일에서 다음 폐지의 자 
료에 대해 반복을 계속하기 위해 ⑤ -1 단계로 이동한다. 

⑥ ppos 에 index * 4096 + offset 값을 저 장한다. 이 값은 이 함수를 다음에 호출 
했을 때 읽 기 연산을 실행 할 위 치 이 다. 

⑦ 파일서술자의 f _ reada 마당을 1로 설정하여 파일에서 자료를 순차적으로 읽고있 
다는 사실을 기록한다. 

⑧ update _ atime () 을 호출하여 현재시 간을 파일 i 마디의 i_atime 마당에 보관하고 i 마 
디 를《 불결 한 ( dirty ) 》것 으로 표시 한다. 

2) 정규파일을 위한 readpage 메쏘드 

앞절에서 본것처럼 do _ generic _ file _ read () 는 각 폐지를 디스크에서 기억기로 읽기 
위해 readpage 메쏘드를 반복하여 사용한다. 

address_space 객체의 readpage 메 쏘드는 물리적 디스크에서 페지캐쉬로 입출력 자료 
전송을 활성화하는 함수의 주소를 보관한다. 

정 규파일 인 경 우 보통 이 마당은 mpage_readpages 함수를 호출하는 래 퍼함수를 가 
리킨다. 

wrapper 함수가 필요한 리유는 mpage_readpages 함수가 채울 폐지서술자 page , 그 
리고 mpage_readpages 가 정확한 블로크를 찾는것을 도와주는 get_block 함수의 주소 
get_block 를 변수로 받기때문이다. 

이 함수는 파일시작부터의 위치인 블로크번호를 디스크구획에서 상대적인 위치인 론 
리적인 블로크번호로 변환한다. 

두번째 변수는 몰론 정규파일 이 속한 파일체계의 류형 에 따라 다르다. 

이 례 에 서 는 ext 2_ get _ block 0 함수의 주소이 다. 

mpage_readpages 함수는 폐지에 포함된 완충기에서부터 페지입출력연산을 시작한다. 

필요하면 완충기머리부를 할당하고 앞에서 설명한 get_block 메쏘드를 사용하여 디 
스크에서 완충기를 찾고 자료를 전송한다. 

특히 다음과 갈은 단계를 실행한다. 

① page->buffers 마당을 검사한다. NULL 이면 create _ empty _ buffers 0를 호출 
하여 페지에 포함된 모든 완충기에 대해 비동기완충기머리부를 할당한다. 폐지의 첫번째 
완충기에 대한 완충기머리부의 주소는 page->buffers 마당에 보관한다. 매 완충기머리 
부의 bj : his_page 마당은 페지에서 다음 완충기의 완충기머리부를 가리킨다. 

② 폐지 안에서 상대적인 파일편위로부터 ( page->index 마당) 폐지의 첫번째 블로크 
의 과일블로크번호를 엄는다. 
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③ 페 지의 매 완충기 의 완충기 머 리 부에 대 해 다음단계 를 실행 한다. 

-i. BH_Uptodate 기 발이 설정되여있으면 완충기를 건너뛰 고 페지의 다음 완충기 에 
대해 계속한다. 

l. BH_Mapped 기 발이 설정 되 여있지 않으면 get_block 라는 변수로 그 주소를 전 
달받은 파일체계에 독자적인 함수를 호출한다. 이 함수는 파일체계 에 있는 디스크에서의 
자료구조를 탐색 하여 완충기의 론리적인 블로크번호를 찾는다. (론러적블로크번호는 정규 
파일의 시작부터가 아닌 디스크구획의 시작부터 위치를 나타낸다.) 

c.. 파일체계에 독자적인 이 함수는 이 번호를 완충기머리부의 b_blocknr 에 보관 
하고 완충기머 리부의 BH_Mapped 기발을 설정한다. 

드물게 블로크가 정규파일에 속해있으나 응용프로그람이 그 위 치에 구멍 (hole) 을 
가지고있어서 블로크를 찾지 못하는 경우가 있다. 

이 경우 mpage_readpages 는 완충기를 0 으로 채우고 완충기머리부의 

BH_Uptodate 기발을 설정하고 폐지의 다음 완충기에 대해 계속한다. 

파일 체 계 에 독자적 인 함수가 완충기 를 갱 신하는 블로크입 출력 연산을 시 작했을수도 
있으므로 BH_Uptodate 기 발을 다시 검사한다. BH_Uptodate 가 설정되여 있으면 폐지의 
다음 완충기 에 대 해 계속한다. 

«* 완충기머리부의 주소를 배렬 arr 에 보관하고 폐지의 다음 완충기에 대해 계속 
한다. 

④ 이제 국부배렬 arr 는 최신내용을 포함하지 않은 완충기에 대응하는 완충기머리부 
의 주소를 담게 된다. 

배렬이 비여있으면 패지의 모든 완충기가 유효한 경우이다. 

함수는 페지서술자의 PG_uptodate 기발을 설정하고 폐지를 잠그기에서 풀고 끝낸다. 

⑤ 여기까지 하면 arr 배럴이 비 여있지 않다. mpage_readpages 0 가 배 럴의 매 완 
충기머리부에 대해 다음 단계를 실행한다. 

1. BH_Lock 기발을 설정한다. 

기 발이 이미 설정 되 여있으면 함수는 완충기 가 잠그기 에서 풀릴 때 까지 기 다린다. 

is-* 완충기머 리부의 b_end_io 마당을 end_buffer_io_ async 함수의 주소로 설정 한다. 

c. 완충기머리부의 BH_Async 기발을 설정한다. 

⑥ arr 배 렬 이 매 완충기머 리부에 대 해 submit_bh() 함수를 호출한다. 

이때 연산류형을 READ 로 지정한다. 

《 ll _ rw _ block () 함수》에서 본것처럼 이 함수는 대응하는 블로크의 입출력자료전송 
을 시작하도록 한다. 


3) 블로크장치파일을 위한 readpage 메쏘드 
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블로크장치 에 대 한 입 출력 연산은 openO 체 계 호출에서 지정 한 블로크장치 파일의 i 마 
디가 아니 고 서술자의 bdjnode 마당이 가리키는 bdev 특수파일체 계 에 속한 블로크장치 i 
마디 를 사용한다. (서 로 다른 장치 파일 이 같은 블로크장치 를 나타낼수도 있 다. ) 

블로크장치는 대응하는 블로크장치 i 마디의 i _ data 마당에 저장된 address _ space 객체 
를 사용한다. 

정 규파일과 달러 (정 규파일의 address _ space 객 체 에 있는 readpage 메 쏘드는 파일 이 
속한 파일체계류형에 따라 결정된다.) 블로크장치의 readpage 메쏘드는 언제나 같다. 

이 메 쏘드는 blkdev _ readpage () 함수로 구현한다. 

앞절과 마찬가지로 block _ read _ full _ page () 함수를 사용하는데 여기서 두번째 변수 
는 파일시작위치부터의 블로크번호를 블로크장치시작위치부터의 론리적블로크번호로 변 
환하는 함수를 가리 킨다. 

그런데 블로크장치파일인 경우 두 번호는 동일하다. blkdev _ get _ block 함수는 다음 
단계를 수행한다. 

① 페지의 첫번째 블로크번호가 블로크장치의 크기를 넘지 않았는가를 검사한 
다. ( blk _ size [ MAJOR ( inode -> i _ rdev )] [MINOR ( inode - > i _ rdev )] 에 보관되 여 있 
다. ) 넘 었다면 오유코드 - EIO 를 반환한다. 

② 완충기머 리부의 b _ dev 마당을 inode -> r _ dev 로 설정 한다. 

③ 완충기머 리부의 b _ blocknr 마당을 폐지의 첫번째 블로크의 파일 블로크크번호로 
설정 한다. 

④ 완충기 머 리 부의 BH _ Mapped 기 발을 설정 하여 완충기 머 리 부의 b _ dev 와 

b _ blocknr 마당이 의미있는 값을 보관하고있음을 표시한다. 

4) 파일미 리읽기 

디스크접근은 순차적인 경우가 많다. 

정규파일은 디스크에 보관될 때 규모가 큰 립접한 분구들에 보관된다. 

그러고 프로그람이 파일을 읽거나 복사할 때 첫번째 바이트로부터 마지막 바이트까 
지 순차적으로 접근하는 경우가 많다. 

따라서 입출력연산 몇번으로도 디스크에서 린접한 분구들을 한꺼번에 많이 가져오게 
된 다. 

《 미 리 읽 기 ( read - ahead ) 》는 정 규파일 이 나 블로크장치 파일의 여 러 린접 페 지 의 자료 
를 실제 요청하기 전에 미리 읽는 기법이다. 

미리 읽기를 통해서 디스크조종기는 적은 명령으로 한번에 여러 린접한 분구를 처리 
하게 되므로 대부분의 경우 읽기는 디스크성능은 물론 체계의 응답시간도 개선해준다. 

파일을 순차적으로 읽는 프로쎄스는 요청한 자료가 대부분 이미 기억기에 있으므로 
기 다리지 않아도 된다. 

그러나 미 리 읽기는 파일에 대한《 임의접근 (random accesss ) 》인 경우에는 도움이 
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되지 않는다. 

이 경우에는 오히려 폐지캐쉬에 불필요한 정보를 보관하게 되므로 공간을 랑비한다 
고 볼수 있다. 

따라서 핵심부는 가장 최근의 입출력접근이 이전것에 대해 순차적이지 않다고 판단 
하면 미리읽기를 중단한다. 

파일의 미리읽기는 몇가지 리유로 복잡한 알고리듬을 요구한다. 

> 폐지단위로 자료를 읽기때문에 미리 읽기알고리듬은 페지내의 편위를 고려할 필 
요없 이 파일 내 에 접 근하려 는 페 지위 치 만 고려 하면 된다. 

같은 파일의 패지접근은 접근하는 폐지가 서로 가깝게 있기만 하다면 순차적이 

라고 판단한다. 

《 가깝다 ( close ) 》는 의 미 는 후에 정 의 한다. 

> 현재접근이 이전것에 대해 순차적이지 않다면(임의접근) 미리읽기를 처음부터 
다시 시 작해 야 한다. 

> 프로쎄스가 갈은 폐지를 반복해서 접근하는 경우에는 미 리읽기를 늦추거 나 멈 춰 
야 한다. (파일의 아주 작은 일부분만 사용하는 경우) 

> 미 리읽기알고리듬은 필요하다면 새 로운 패지를 읽어들이도록 저수준입출력장치 
구동프로그람을 활성화해 야 한다. 

미 리 읽 기 알고리 듬은 파일의 련속하는 부분에 대 응하는 페 지 집 합을 《 미 리 읽 기 창문 
( read-ahead window ) 》으로 인식 한다. 

프로쎄스가 요청한 다음 읽기연산이 이 페지집합안에 포함되면 핵심부는 이 파일접 
근이 이 전 접 근에 대 해 《 순차적 ( sequential ) 》이 라고 판단한다. 

미 리읽기창문은 프로쎄스가 요청한 폐지 또는 핵심부가 미 리읽은 폐지로 이루어지며 
페지캐쉬 에 들어있다. 

미 리읽기창문은 언제 나 바로전에 수행한 미 리 읽기 연산이 요청한 폐지들을 포함한다. 

이것을《미 러읽기 그를》이 라고 한다. 프로쎄스가 요청한 다음 연산이 미 리읽기그룹 
에 들어있으면 핵심부는 읽기중인 프로쎄스보다 조금 더 앞서 나가려고 미 리읽기창문 다 
음에 있는 폐지를 더 읽을수도 있다. 

미리읽기창문이나 미리읽기그룹의 폐지가 반드시 최신일 필요는 없다. 

디스크에서 전송을 완료하지 않은 경우 이것들을 사용할수 없다. ( PG _ uptodate 기 발 
이 설정 되 여있지 않다. ) 

파일객체는 미 리읽기와 관련하여 다음과 갈은 마당을 포함한다. 

f_raend 

미리읽기그룹과 미리읽기창문 다음에 있는 첫번째 바이트위치 

f_rawin 

현재 미 리읽기창문의 바이트단위길 이 
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f_ralen 

현재 미 리읽기그룹의 바이트단위길 이 
f_ramax 

다음 미 리읽기연산에 대 한 문자단위의 최 대길 이 
f_reada 

lseekO 체계호출을 사용하여 파일지적자를 명시적으로 설정했는지(값이 0), 이전 
의 readO 체계호출을 사용하여 명시적으로 설정했는지 (값이 1) 를 나타내는 기발 
파일을 열 때 이 마당들은 모두 0으로 설정된다. 그림 2-3 은 이 마당들을 사용하여 
미 리읽기창문과 미 리읽기그룹을 어떻게 구분하는가를 보여준다. 


! 

f_raend 

미 리 읽기창문에 들어 있는 페지 
미 러 읽 기 창문과 미 리 읽 기 그룹모두에 들어 있는 페 지 


그림 2 - 3 . 미리 읽기창문과 미리읽기그룹 

핵심부는 두 종류의 미리읽기연산을 구분한다. 

5) 동기적미 리읽기 연산 

읽기가 현재 미리읽기창문밖을 대상으로 할 때 실행된다. 동기적미리읽기연산은 언 
제 나 사용자가 읽기 연산에서 요청 한 모든 페지와 추가적 인 한 페지 에 영향을 준다. 
연산이 끝나면 미 리 읽기창문은 미 리 읽기 그를과 같게 된다. (그림 2-4 참고) 

6) 비동기 적미 러읽기연산 

읽기 가 현재 미 러읽기창문안을 대상으로 할 때 실행된다. 

비동기적미 리읽기연산은 이전의 미 리읽기그룹의 폐지의 두배를 읽어서 미 리읽기 
창문을 확장하려고 한다. 

새로운 미리읽기창문은 이전의 미리읽기그룹과 새 미리읽기그름으로 구성된 
다. (그림 2-4 참고) 
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그림 2-4. 미리읽기 그룹과 창문 


미 리읽기의 동작을 설명하기 위해 사용자가 파일에 대 해 readO 체계 호출을 하였다 
고 가정하자. 

readO 함수는 do _ generic _ file _ read () 함수를 호출한다. 

dc 匕 genericjile _ read () 함수는 읽으러는 첫번째 폐지 가 파일의 현재 미 리읽기창문 
에 들어있는지 검 사한다. 

3가지 경우가 있을수 있다. 

> 첫번째 페지가 현재 미 리읽기창문밖에 있다. 함수는 파일객체의 f _ raend , 
f _ ralen , f _ ramax , f _ rawin 마당을 0 으로 설정 한다. 그리고 reada _ ok 변수를 
0으로 설정하여 비동기적미 리읽기 연산을 금지한다. 

> 첫번째 폐지가 현재 미 리읽기창문안에 있다. 이것은 사용자가 파일에 순차적으 
로 접근하고있음을 의미한다. 함수는 reada _ ok 변수를 1로 설정하여 비동기적 
미 리읽기 연산을 활성화한다. 

> 파일에 한번도 접근한 사실 이 없어서 현재 미 리 읽기창문과 미 리읽기 그를이 비 여 
있다. 

또 읽으러는 첫번째폐지가 파일의 첫 페지이다. 이 경우 함수는 reada _ ok 변 
수를 1로 설정하여 비동기적미 리읽기 연산을 활성화한다. 

do _ generic _ flle _ readO 함수는 파일객체의 f _ ramax 마당값을 조정한다. 

이 마당은 다음번 미 리읽기 연산에서 요청할 페지수를 나타낸다. 

이 값은 파일에 대한 직전의 미리읽기연산에 의해 결정되지만 
do _ generic _ file _ read () 는 f _ ramax 가 언제나 readO 체계 호출이 요청 한 페지수+1보다 
큰 값을 저장하게 된다. 
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그러고 함수는 f_ramax 가 언제나 vm_min_readahead 대역변수(보통 3 페지)보다 
크고 장치 별 최대값보다 작은 값을 보관하게 된다. 

매 블로크장치는 max_readahead 배럴에 값을 정의할수 있다. 이 배럴은 장치의 주 
번호와 부번호를 통해 참조한다. 

장치 구동프로그람이 최대값을 지정 하지 않으면 핵심부는 vm_max_readahead 대역 
변수의 값(보통 31 폐지)을 최대값으로 사용한다. 

체 계 관리 ; 다•는 AA / proc/sys/vm/min-readahead 와 / proc/sys/vm/max- 
readahead 파일에 값을 기록하여 vm_min_readahead 와 vm_max_readahead 값을 변경 
할수 있다. 

《파일에서 읽기》에서 본것처럼 do_generic_file_read() 함수는 최소한 읽기요청에 
포함된 매 페지에 대해 한번씩 generic_file_readahead() 함수를 여러번 호출한다. 

이 함수는 파일과 i 마디객체, do_generic_file_read() 가 현재 읽으러는 폐지의 서 
술자， read_ok 기 발값(비동기적미 리읽기 연산 활성화 또는 비활성화) 등을 변수로 받는다. 

페 지 를 미 리 읽 기 위 해 서 generic_fi 1 e_readahead 0 함수는 page_cache_read 0 를 
호출하고 이 함수는 폐지를 폐지캐쉬에서 탐색하고(삽입할수도 있다.) 대응하는 
address_space 객체의 readpage 메 쏘드를 호출하여 입출력 자료전송을 요청 한다. 
generic_file_readahead() 의 전체적 인 동작은 다음과 같다. 

기본적으로 이 함수는 동기적 인 경우와 비동기적 인 경우를 구분한다. 변수로 전달 
된 폐지서술자를 검사해서 서술자의 PG_locked 기발이 설정되 여있으면 폐지는 
do_generic_file_read() 함수가 시작한 입출력자료전송에 관련한것 이므로 미 리읽기를 동 
기적으로 처 리한다. 그렇지 않으면 비동기적미 리읽기가 가능하다. 다음절에서 
PGJocked 기 발에 따른 동작을 본다. 

2. 파일에 쓰기 

앞에서 본것처럼 writeO 체계호출은 자기를 호출한 프로쎄스의 사용자방식의 주소 
공간에 있는 자료를 핵심부자료구조로 옮긴 다음 다시 디스크로 옳긴다. 파일객체의 
write 메쏘드는 각 파일체계의 류형이 독자적인 write 연산을 정의하도록 한다. 핵심부 
2. 6 에서 매 디스크기반의 파일체계의 write 메쏘드는 write 연산에 관련된 디스크블로크 
를 찾아서 자료를 사용자방식의 주소공간에서 폐지캐쉬에 속한 폐지로 복사하고 페지완 
충기를《불결한》 (dirty ) 것으로 표시한다. 

Ext2 를 포함한 일부 파일체계에서 파일객체의 write 메쏘드는 generic_file_write() 
함수를 사용하여 실현한다. 이 함수는 다음과 갈은 변수를 받는다. 

file 

파일객체지적자 

buf 

파일에 기록할 문자 (character) 를 가져올 주소 
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count 

파일에 기록할 문자의 수 

ppos 

쓰기연산을 시작할 파일편위를 담고있는 변수의 주소 

함수는 다음과 갈은 연산을 수행한다. 

① 변수 count 와 buf 가 유효한지 검사한다. (이 변수들은 반드시 사용자방식의 주 
소공간을 가리켜야 한다.) 유효하지 않으면 오유코드 EFAULT 를 되돌린다. 

② 기록할 파일에 대응하는 i 마디객체의 주소 inode 를 결정한다. (file-> f_dentry- 
>d_inode->i_mapping->host) 

③ 신호기 inode->i_sem 을 엄는다. 신호기를 사용하기때문에 한번에 한 프로쎄스만 
파일 에 대한 write 0 체 계 호출을 처 러 할수 있 다. 

④ file->flags 의 0_APPEND 기 발이 설정 되 여있으면 정 규파일 인 경 우(블로크장치 
파일이 아닌 경우) *ppos 를 파일의 끝으로 설정하여 모든 새로운 자료를 파일의 끝에 
추가하도록 한다. 

⑤ 파일의 크기 에 대 한 몇 가지 검사를 실행 한다. 례를 들어 쓰기 연산은 current- 
>rlim[RLIMIT_SIZE] 에 저 장된 사용자별한계 (3 장에 있는 프로쎄 스 자원한계 )를 넘 거 
나 inode->i_sb->s_maxbytes 에 저장된 파일체계한계를 넘도록 정규파일을 확장하면 
안된다. 

⑥ 현재 시각을 inode->mtime 마당(마지 막 파일쓰기 연산시각)과 inode-> c 仕 me 마 
당(마지막 i 마디변경시각)에 저장된다. 그러고 i 마디객체를 《 불결한》 (dirty) 》것으로 
표시 한다. 

⑦ 파일객체의 0_DIRECT 기 발을 검사한다. 기 발이 설정되있으면 폐지캐쉬를 무시 
한다. 이 경우에 관해서는 이 절의 뒤부분에서 본다. 이 절에서는 0_DIRECT 가 설정 
되 여있지 않다고 가정한다. 

⑧ 파일의 쓰기연산에 관련된 모든 페지에 대한 반복작업을 시작한다. 매 폐지에 대 
해 다음과 같은 작업 을 수행한다. 

- 1. 폐지를 폐지캐쉬에서 찾아본다. 페지케쉬에 없으면 여유폐지를 할당하여 새로 
페지를 캐쉬에 추가한다. 

t,, 페지에 열쇠를 건다. 즉 PG_locked 기발을 설정한다. 

c . 예 방을 위 해 페 지 소용계 수기 를 증가시 킨 다 . 

«, kmapO 를 호출하여 폐지시작선형주소를 엄는다. 

t ]. i 마디 의 address_space 객체 에 있는 prepare_write 메 쏘드를 호출한다. (file- 
>f_dentry->d_indoe->i_mapping) 메쏘드에 대응하는 함수는 페지에 대한 비동기적완 
충기머리부를 할당하고 필요하다면 디스크에서 완충기를 읽어온다. 이 함수가 정규파일 
과 블로크장치파일에 대해 어떻게 동작하는지는 뒤에 나오는 절에서 본다. 
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w. _copy_from_user() 를 호출하여 사용자방식 의 완충기 에 서 페 지 로 자료를 복 
사한다. 

ᄉ. i 마디 의 address_space 객 체 에 있는 commit_write 메 쏘드를 호출한다. (file- 
>f_dentry->d_indoe->i_mapping) 대 응하는 함수는 완충기 를 《 불결 한 (dirty) 》것 으 
로 표시하여 나중에 디스크에 기록되도록 한다. 이 함수가 정규파일과 블로크장치파일에 
대해 어떻게 동작하는지는 뒤에서 본다. 

o . kunmapO 를 호출하여 ⑧ -d 단계 에서 설정 한 높은자리기 억기배 치를 해제 한다. 

ᄌ. 폐지의 PG_referenced 기발을 설정한다. 이것은 기억기회수알고리듬에서 사용 
한다. 

ᄎ. PG_locked 기발을 지우고 폐지의 열쇠가 풀리기를 기다리는 프로쎄스를 깨운다. 

H . ⑧ - c 에서 증가시 킨것을 취소하려고 폐지사용계수기를 감소시킨다. 

⑨ 이제 파일의 쓰기연산에 관련된 모든 폐지를 처 리 하였다. 마지 막으로 기록한 문 
자다음을 가리키 도록 하 PPOS 의 값을 변경한다. 

⑩ 파일의 0_SYNC 기 발을 검 사한다. 기 발이 설정 되 여 있으면 generic. 
osync_inode () 를 호출하여 핵심부가 폐지의 모든《불결한》완충기를 디스크에 청소 
하게 하고 입출력자료전송이 완료될 때까지 현재프로쎄스를 중단하다. 

⑪ inode->i_sem 신호기 를 해제 한다. 

⑫ 파일 에 기 록한 문자수를 반환한다. 

1) 정규파일에 대한 prepare_write 와 commit_write 메쏘드 

address_space 객 체 의 prepare_write 와 commit_write 메 쏘드는 generic— 
file_write() 가 실현하는 일반적인 쓰기연산을 정규파일과 블로크장치파일에 대해 특수 
화시킨다. 두 메쏘드는 쓰기연산에서 각 페지에 대해 호출한다. 

매 디스크 기반의 파일체계는 자신의 prepare_write 메 쏘드를 정의 한다. 이 메쏘드 
는 read 연산과 마찬가지로 공통함수에 대한 래퍼 함수이 다. 례를 들어 Ext2 파일체계의 
prepare_write 메쏘드는 다음과 같은 함수로 정의된다. 

ext2_get_block() 함수는 앞에서 본 《파일에서 읽기》에서 설명하였다. 이 함수는 
파일의 상대적 인 블로크번호를 물리적 인 블로크장치에서 자료를 나타내는 론리적 인 블로 
크번호로 변환한다. 

block_prepare_write() 함수는 다음 단계를 수행 하여 파일에 있는 페지에 대해 완 
충기와 완충기머 리부를 준비한다. 

① page->bu 打 ers 마당을 검 사하여 NULL 이 면 create_empty_buffers () 를 호출하 
여 폐지의 모든 완충기에 대해 완충기머리부를 할당한다. 폐지에서 첫번째 완충기의 완 
충기머리부주소는 page->bu 打 ers 마당에 저장한다. 매 완충기머리부의 bj:his_page 마 
당은 페 지 에 서 다음 완충기 의 완충기 머 리 부를 가리 킨 다 . 

② 페 지 에 포함된 쓰기 연산의 대 상이 되 는 완충기 에 대 응하는 완충기 머 리 부에 대 해 
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다음을 수행한다. 

— i . 함수는 BH _ Mapped 기발이 설정되여있지 않으면 다음 단계를 수행한다. 

• 함수의 주소를 변수로 받은 파일체계에 따른 함수를 호출한다. 함수는 파일체계 
에 있는 디 스크에 서 의 자료구조에 서 완충기 의 론리 적 블로크번호 (정 규과일의 시 작부터 의 
번호가 아닌 디스크구획의 시작부터의 번호)를 찾는다. 이 파일체계에 따른 함수는 이 
번호를 대응하는 완충기머리부의 b - blocknr 마당에 저장하고 BH _ Mapped 기발을 설정 
한다. 이 파일체계 에 따른 함수는 파일에 대 한 새 로운 물리적 인 완충기를 할당할수도 있 
다. 이 경우 BH _ New 기발을 설정한다. 

■ BH _ New 기 발의 값을 검사한다. 기발이 설정되 여있으면 

unmap _ underlying _ metadata () 를 호출하여 완충기패쉬가 디스크의 해당 블로크를 참 
조하는《불결한》완충기를 소유하고있지 않게 한다. 또한 쓰기연산이 전체 완충기를 
재기록하지 않으면 함수는 완충기를 0으로 채운다. 그리고 폐지의 다음 완충기를 처리 
하도록 한다. 

쓰기연산이 전체 완충기를 재기록하지 않고 완충기의 BH _ Uptodate 기발이 설 
정 되 여있지 않다면 함수는 블로크에 대 해 ll _ rw _ block () 를 호출하여 디 스크에서 내 용 
을 읽어온다. 

③ ②단계 에서 시 작한 모든 읽 기 연산이 완료될 때 까지 현재 프로쎄스를 중지 한다. 

prepare _ write 메쏘드에서 되돌아가면 generic _ file _ write () 함수는 페지를 사용자 
방식의 주소공간의 자료로 갱신한다. 그리고 address _ space 객체의 commit _ write 메쏘 
드를 호출한다. 이 메쏘드는 대부분의 디스크기반과일체계에서 

generic _ commit_write 0 함수로 구현 한다. 

generic _ commit _ write () 함수는 다음 단계를 수행 한다. 

① block _ commit _ write 0함수를 호출한다. 이 함수는 쓰기 연산의 영 향을 받는 패 
지의 모든 완충기를 대상으로 매 완충기에 대해 BH _ Uptodate 와 BH_Dirty 기발을 설 
정하고 완충기머리부를 BHF _ DIRTY 목록과 i 마디의 《 불결한》완충기목록에 삽입한 
다. (이미 목록애 있지 않는 경우) 함수는 balance _ dirty () 함수를 호출하여 체 계전체의 
《 불결 한》완충기 수가 제 한된 값을 넘 지 않도록 한다. 

② 쓰기연산이 파일을 증가시컸는가를 검사한다. 그렇 다면 함수는 파일의 i 마디의 
i _ size 마당을 갱 신 하고 i 마디 객 체 를《 불결 한》것 으로 표시 한다. 

2) 블로크장치 파일에 대한 prepare _ write 와 commit _ write 메쏘드 

블로크장치파일에 대한 쓰기연산은 정규파일에 대한 쓰기연산과 아주 비슷하다. 
사실 블로크장치 파일의 address _ space 객체 에 있는 prepare _ write 메 쏘드는 보통 다음 
과 같이 실현된다. 

이 함수는 단지 앞에서 설명한 block _ prepare _ write () 함수를 호출한다. 차이점 
은 두번째의 변수에 있다. 이 변수는 파일시작부터의 위치를 나타내는 파일블로크번호 
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를 블로크장치시 작부터의 위 치를 나타내는 론리적 인 블로크번호로 변환하는 함수이 다. 
블로크장치파일인 경우 이 두 수자는 같다. 

블로크장치 파일 에 대 한 commit_write 메 쏘드는 간단한 래 퍼 함수로 실 현된 다. 

블로크장치 파일에 대한 commit_write 메 쏘드는 정규파일에 대한 commit_write 메 
쏘드와 같다. 차이점은 이 메쏘드는 쓰기연산이 파일을 증가시켰는가를 검사하지 않는 
다는 점이다. 마지막 위치에 문자를 덧붙인다고 해서 블로크장치파일을 증가시킬수는 
없다. 


3. 기억기배치 


기 억기 령역은 디스크기 반의 파일체 계의 정 규파일 또는 블로크장치파일의 일부분에 
대응할수 있다. 즉 기억기령역에 있는 폐지의 한 바이트에 대한 접근을 핵심부가 파일의 
해당 바이트에 대한 연산으로 변환한다. 이 기법을 《 기억기배치 (memory 
mapping) 》라고 부론다. 

기 억 기 배 치 에 는 두가지 종류가 있 다 . 

1) 공유 (shared) 

기억기령역의 패지에 대해 쓰기연산을 하게 되면 디스크의 파일을 변경한다. 그리고 
어떤 프로쎄스가 공유기억기에 배치된 폐지에 쓰기를 하는 경우 이 파일을 기억기배치하 
는 다른 모든 프로쎄스가 그 변화를 알수 있다. 

2) 비공개 (private) 

프로쎄스가 파일에 대해 쓰기를 하지 않고 읽기만을 위해서 배치를 생성하는 경우에 
사용한다. 읽기용으로 사용하는 경우 비공개배치는 공유배치보다 더 효률적이다. 그러나 
비공개배치폐지에 대해 쓰기요청을 하면 이 폐지가 더는 파일의 폐지와 배치되지 않는다. 

쓰기는 디스크의 파일내용을 변경하지 못하며 같은 파일에 접근하는 다른 프로쎄스 
는 이 변화를 알지 못한다. 

프로쎄 스는 새 로운 기 억 기 배 치를 생성 하기 위 해 서 mmap () 체 계 호출을 사용한다. 프 
로그람작성 자는 체 계 호출의 변수로 MAP _ SHARED 기 발이 나 MAP _ PRIVATE 기 발을 
지정해야 한다. 추측한것처럼 전자는 공유배치에 사용하고 후자는 비공개배치에 사용한 
다. 배 치를 생성하고 나면 프로쎄스는 새 로운 기 억기령역의 기 억기위치 에서 파일에 저 장 
된 자료를 읽 을수 있다. 공유기억기배 치 인 경우 프로쎄스는 같은 기 억기위 치 에쓰기를 함 
으로써 대 응하는 파일 을 변경할수 있 다. 프로쎄 스는 기 억 기 배 치 를 제 거 하거 나 줄이 기 위 
해서 munmapO 체계 호출을 사용한다. 

일반적을 공유기억기배 치 인 경우 대응하는 기 억기령역은 VM _ SHARED 기발을 1로 
설정하고 비공개 인 경우에는 VM _ SHARED 기 발을 0으로 설정한다. 후에 보지만 읽기전 
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용인 공유기억기배치인 경우 이 규칙에서 벗어날 때도 있다. 


3) 기억기배치자료구조 

다음과 같은 자료구조의 조합으로 기 억기배 치를 나타낸다. 

• 배치된 파일에 대응하는 i 마디객체 

■ 배치된 파일의 address _ space 객체 

• 이 파일에 대해 여러 프로쎄스가 실행한 대 배치에 대한 파일객체 

■ 파일에서 서로 다른 각 배치에 대한 vm _ area _ struct 서술자 

• 파일을 배치하는 기억기령역에 할당된 매 폐지틀에 대한 폐지서술자 

매 i 마디객체의 i _ mmapping 마당은 파일의 address _ space 객체를 가리 킨 다. 매 
address _ space 객체의 i _ mmap 와 i _ mmap _ shared 마당은 파일을 배치 하는 모든 기억기령 
역을 포함하고있는 2중련결목록의 첫번째 요소를 가리킨다. 두 마당이 모두 NULL 인 경 
우에 이 파일은 어떤 기억기령역에도 배치되여있지 않다. 이 목록은 기억기령역을 나타 
내는 vm _ area _ struct 서술자를 포함하고있으며 vm _ next _ share 와 vm _ pprev _ share 마 
당이 목록을 실현한다.매 기억기령역서술자의 vm _ file 마당은 배치된 파일에 대한 파일객 
체주소를 담는다. 이 마당이 NULL 이면 이 기억기령역은 기억기배치에 사용되지 않는다. 
파일객체는 핵심부가 기억기령역을 소유하고있는 프로쎄스와 배치된 파일을 알수 있게 
해주는 마당을 포함한다. 

배치된 시작위치는 기억기령역서술자의 vm _ pgoff 마당에 보관된다. 이 마당은 폐지 
크기단위로 파일에서의 편위를 나타낸다. 배 치된 과일부분의 길이는 기 억기 령 역의 길이 
와 갈으므로 vm _ start 와 vm_end 마당으로부터 구할수 있다. 

공유기억기배 치된 폐지는 언제 나 폐지캐쉬 에 들어있다. 비공개기 억기배 치된 폐지는 
변경되지 않는 동안에는 폐지캐쉬 에 들어있다. 프로쎄스가 비공개기 억기배 치폐지를 변경 
하려면 핵심부는 이 폐지틀을 복제하고 프로쎄스폐지표에서 원본폐지틀을 대신하여 복제 
프레 임으로 대체한다. 이것은 앞장에서 설명한《쓰기복사》기법을 응용한 실례 이 다. 원 
본폐지 틀은 여전히 폐지패쉬에 있지만 복제 한것으로 대체되였기때문에 더는 기억기배치 
에 속하지 않는다. 그리고 복제된 프레 임은 디스크의 파일을 나타내는 자료를 포함하지 
않으므로 패지캐쉬에 삽입되지 않는다. 

핵심부는 서로 다른 매 파일체계에 대해 독자적인 기억기배치기구를 위한 후크 
( hook ) 를 제공한다. 기억기배치실현의 핵심은 파일객체의 mmap 메쏘드이다. 대부분의 
디스크기반의 파일체계와 블로크장치파일의 경우 이 메쏘드는 generic _ file _ mmap () 이 
라는 함수를 통해 실현하며 다음 부분에서 설명 한다. 

파일-기억기배치는 요구폐지화에서 설명한 요구페지화 (demand paging ) 기구에 
의존한다. 새로 설정된 기억기배치는 빈 기억기령역으로 아직 패지를 포함하지 않는다. 
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프로쎄스가 령역내부의 주소를 참조함에 따라 폐지오유 (Page Fault ) 가 발생한다. 폐지 
오유처 리기는 기 억기 령 역에 대해 nopage 메쏘드가 정의되여있는가를 검사한다. 정의되 
여 있지 않으면 기 억기령 역은 디스크의 파일에 대 한 배 치가 아니 다. 정의되 여있다면 메쏘 
드는 블로크장치에 접근하여 폐지를 읽도륵 한다. 대부분의 디스크기반의 파일체계와 블 
로크장치파일의 nopage 메쏘드는 filemap _ nopage () 함수를 통해 실현한다. 


4) 기억기배치생성 

프로쎄스는 새로운 기억기배치를 생성하기 위해서 다음과 같은 변수를 전달하여 
mmapO 체계 호출함수를 호출한다. 

• 배치될 파일을 나타내는 파일서술자 

• 배치될 파일부분의 첫번째문자를 나타내는 파일안의 편위 

•배치될 파일부분의 길이 

•기발집합. 프로쎄스는 요청한 기억기배치의 종류를 지정하기 위해 
MAP _ SHARED 기 발이 나 MAP _ PRIVATE 기 발을 명시적으로 설정 해 야 한다. 

•기억기령역에 대한 하나이상의 접근권한을 나타내는 집합. 읽기접근 
( PROT _ READ ), 쓰기접근 ( PROT _ WRITE )， 실행접근 ( PROT _ EXEC ) 권한이 
있 다. 

•선형주소(선택항목이다) 핵심부는 새로운 기억기령역이 시작할 위치를 지정 
하는 암시로서 이 주소를 사용한다. MAP _ FIXED 기발을 지정하고 핵심부가 지정 
된 선형주소에서 시 작하는 새로운 기 억기 령역을 할당하지 못할 경우 체계호출은 
실패 한다. 

mmapO 체계호출은 새로운 기억기령역과 시작위치의 선형주소를 변환한다. 호환성 
문제때문에 80 x 86 구조에서 핵심부는 mmapO 를 위해 체계호출표에서 두개의 입구점 
( entry ) 을 사용한다 두 입구점의 색인값은 90과 192이다. 전자는 old _ mmap () 봉사루 
린에 해 당하며(이전의 C 서고에서 사용) 후자는 sys _ mmap 2 봉사루린에 해 당한다.(최근 
의 C 서고에서 사용한다.) 두 봉사루린의 차이점은 체계호출의 변수 6개의 전달방법뿐이 
다. 둘 다 do _ mmap _ pgoff () 함수를 호출한다. 이제 파일을 배치하는 기억기령역을 생 
성할 때 수행하는 단계를 설명한다. 

① 배 치 할 파일 에 대 해 mmap 파일 연산이 정 의되 여있는지 를 검사한다. 정 의 
되 여있지 않다면 오유코드를 반환한다. 파일연산표의 mmap 가 NULL 값이 면 대 응 
하는 파일을 배 치할수 없음을 나타낸다. (례를 들면 등록부의 경우) 

② 파일 객 체 의 get _ unmapped _ area 메 쏘드가 정 의 되 여 있는지 를 검 사하여 정 
의되 여있으면 호출한다. 그렇지 않으면 arch _ get _ unmapped _ area () 함수를 호출 
한다. 80 x 86 구조에서 독자적인 메쏘드는 프레임완충기계층에서만 사용하므로 더 
설명하지 않는다. arch _ get _ unmapped _ area () 는 새로운 기억기령역에 대해 선형 
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주소공간을 할당한다. 

③ 일반적인 일관성검사외에 요청한 기억기배치의 종류와 파일을 열 때 지정 
한 기발을 비교한다. 체계호출의 파라메 터로 받은 기발은 요청한 배 치종류를 나타 
내고 파일객체의 f_mode 값은 파일을 열었을 때 지정한 기발을 나타낸다. 이 두 
종류의 정보에 대해 다음과 같은 검사를 실행 한다. 

- I . 쓰기가능한 공유기억기배치를 요청한 경우 쓰기용으로 파일을 열 
었으며 추가방식 ( open 0체 계 호출의 0 _APPEND 기 발) 으로 열지 않았다는 사 
실을 확인한다. 

1 -. 공유기억기배치를 요청한 경우 파일에 강제적인 잠그기 

(mandatory_lock) A 없음을 확인한다. 

e . 모든 기억기배치에 대해 읽기를 허용하여 파일을 열었는지 확인한 

다. 

이중에서 만족하지 않는 사항이 하나라도 있으면 오유 코드를 반환한다. 

④ 새로운 기억기령역서술자의 vm_flags 마당값을 초기화할 때 파일의 접근 
권한과 요청한 기억기배치종류에 따라 VM_READ, VM_WRTIE, VM_EXEC, 
VM—SHARED, VM—MAYREAD, VM_MAYWRITE, VM_MAYEXEC, 
VM_MAYSHARE 기 발을 설정 한다. 성능을 높이기 위 해서 쓰기금지된 공유기 억기 
배치에 대해서는 VM_SHARED 기발의 설정을 해제한다. 기억기령역이 패지에 대 
해 프로쎄스의 쓰기가 금지되였으므로 비공개배치와 똑같이 다룰수 있기때문이다. 
그러나 실제로는 파일을 공유하는 다른 프로쎄스가 이 기억기령역의 폐지에 접근 
하는것을 허용한다. 

⑤ 기억기령역서술자의 vm_file 마당을 파일객체의 주소로 초기화하고 파일 
의 사용계수기를 증가시킨다. 

⑥ 배치된 파일에 대해 객체의 주소와 기억기령역서술자의 주소를 변수로 전 
달하여 mmap 메쏘드를 호출한다. 대부분의 파일체계에서 이 메쏘드는 
generic_file_mmap() 함수로 실현하며 다음과 같은 연산을 수행한다. 

- 1 . 쓰기가능한 공유기억기배치를 요청한 경우 파일의 address_space 

객체의 writepage 메쏘드가 정의되여 있는가를 검사한다. 정의되 여 있지 않으면 
EINVAL 오유 코드를 반환한다. 

1 一. 파일의 address_space 객체의 readpage 메 쏘드가 정의되 여 있는가 

를 검사한다. 정의되 여있지 않으면 ENOEXEC 오유코드를 반환한다. 

c . 현재시각을 파일의 i 마디의 i_atime 마당에 저장하고 i 마디를 《불 
결한》것으로 표시한다. 

기억기령역서설자의 vm_ops 마당을 generic_file_vm_ops 표의 주 
소로 초기화한다. 이 표의 nopage 메쏘드이외의 모든 메쏘드는 NULL 이다. 
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nopage 메 쏘드는 filemap _ nopage () 함수로 실현한다. 

⑦ vma _ link () 는 기억기배 치가 비공개 인지, 공유인지 여부에 따라서 기억기 
령역서술자를 address _ space 객체의 i _ mmap 목록 또는 i _ mmap _ shared 목록에 삽 
입 한다. 


5) 기억기배치제거 

프로쎄스가 기억기배치를 제거하려면 다음과 같은 변수를 전달하여 munmapO 체계 
호출함수를 호출한다. 

• 제 거 할 선형 주소구간의 시 작위 치 주소 

• 제거할 선형주소구간의 길이 

munmapO 체계호출은 각 종류의 기억기령역을 제거하거나 크기를 줄이는데 사용할 
수 있다. 실제로 이 체계 호출의 sys _ nrnnmap () 봉사루린은 do _ munmap 0함수를 호출 
한다. 그러나 파일을 배치한 기억기령역의 경우 해제할 선형주소구간에 포함된 각 기억 
기령역에 대해 다음과 갈은 단계를 추가로 실행한다. 

① remove _ shared _ vm_strucet 0 를 호출하여 기억 기령 역서 술자를 

address _ space 객체 목록 ( i _ mmap 또는 i _ mmap _ shared ) 에서 제거 한다. 

② unmap _ fixup () 함수를 실행하면서 한 기 억기령역전체를 제거하면 파일사 
용계수기 를 감소시키 고 새 로운 기 억기령 역을 생성 하면 파일사용계수기 를 증가시 킨 
다. 즉 배 치를 제거 하는것 이 령 역안에 구멍 ( hole ) 을 생성 하는 경우이 다. 령 역 이 
줄어드는 경우라면 파일사용계수기에는 변화가 없다. 

쓰기가능한 공유기억기배치를 제거하는 경우에 여기에 포함된 폐지의 내용을 디스크 
에서 청소할 필요는 없다. 이 페지들은 계속 페지캐쉬에 남아있으므로 계속 디스크캐쉬 
로 동작한다. 


6) 기억기배치에 대한 요구폐지요구화 

효률을 높이기 위해서 기억기배치가 생성되면 즉시 폐지틀이 할당되지 않으며 가능 
한 마지막순간까지 즉 프로쎄 스가 페지중하나를 참조하여 《페지 오유》례외 가 발생할 때 
까지 할당을 낮춘다. 

핵심부는 오유가 발생한 주소에 대응하는 페지표입구점을 검사하고 입구점 이 비여있 
으면 do _ no _ page () 함수를 호출한다. 

do _ no _ page () 함수는 폐지틀할당과 페지표를 갱신과 같이 모든 요구페지화에 공통 
적 인 연산을 수행한다. 또한 관련기억기령역이 nopage 메쏘드를 정의하고있는가를 검사 
한다. 여기서는 이 메쏘드가 정의되 여있는 경우 함수가 수행 하는 작업을 설명 한다. 

① nopage 메쏘드를 호출한다. 이 메쏘드는 요청한 폐지를 포함하는 폐지틀 
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의 주소를 반환한다. 

② 기억기배치가 비공개인 경우 프로쎄스가 폐지에 쓰기를 시도하면 방금 읽 
은 폐지의 복사본을 만들고 이것을 비활성 (inactive) 폐지목록에 삽입하여 더는 
《 쓰기 복사》오유가 발생 하지 않게 한다. 이 후 단계 에 서 함수는 nopage 메 쏘드가 
반환한 페지대신 새로운 폐지를 사용하여 사용자방식의 프로쎄스가 nopage 메쏘드 
가 반환한 페지를 변경할수 없게 한다. 

③ 새로운 페지틀이 프로쎄스에 할당되였음을 나타내기 위해서 프로쎄스는 
기 억기서술자의 rss 마당을 증가시킨다. 

④ 오유가 발생한 주소에 대응하는 페지표입구점을 페지틀의 주소와 기억기 
령역의 vm_page_prot 마당에 포함된 폐지접근권한으로 설정한다. 

© 프로쎄스가 페지에 쓰기를 시도하면 폐지표입구점의 Read/Write 와 
Dirty 비트를 1로 설정한다. 이 경우 폐지틀을 프로쎄스에 배타적으로 할당하거나 
폐지를 공유한다. 두 경우 모두 폐지에 쓰기를 허용해야 한다. 

요구폐지화알고리듬의 핵심은 기억기령역의 nopage 메쏘드이다. 간단히 말해서 이 
메쏘드는 프로쎄스가 접근하는 폐지를 포함하고있는 폐지틀의 주소를 반환해야 한다. 메 
쏘드의 구현은 폐지를 포함하고있는 기억기령역의 종류에 따라 다르다. 

파일을 디스크로 배치하는 기억기령역을 다루면서 먼저 nopage 메쏘드는 요청한 페 
지가 폐지캐쉬에 있는지 찾아본다. 페지를 찾지 못하면 메쏘드는 페지를 디스크에서 읽 
어야 한다. 대부분의 파일체계는 filemap_nopage() 함수를 사용하여 nopage 메쏘드를 
구현 한다. 

이 함수는 다음과 갈은 새개의 변수를 받는다. 

area 

요청 한 폐지를 포함하고있는 기 억기령역의 서 술자주소이 다. 

address 

요청 한 페 지 선형 주소이 다. 

unused 

filemap_nopage() 함수가 사용하지 않는 nopage 메쏘드의 변수이 다. 

filemap_nopage() 함수는 다음과 같은 단계를 실행한다. 

① area-〉vm_file 마당에서 파일객체의 주소를 얻 는다. file->f_dentry-> d_indo 
e->i_mapping 에서 address_space 객체의 주소를 얻 는다. addresss_space 객체의 host 
마당에서 i 마당객체의 주소를 얻는다. 

② area 의 vm_start 와 vm__crffset 마당을 사용하여 address 에서 시 작하는 페지 에 
대응하는 자료파일 안에서의 편위를 결정한다. 

③ 파일편위 가 파일크기를 초과하는가를 검사한다. 초과하는 경우 NULL 을 반환한 
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다. 이것은 새로운 폐지할당에서 실패하였다는것을 의미한다. 다만 오유추적기가 
ptraceO 체계호출을 사용하여 다른 프로쎄스를 추적하다가 폐지오유가 발생한 경우는 
례외인데 이 경우에 관해서는 설명하지 않는다. 

④ find _ page () 를 호출하여 address_space 객체 와 같은 파일 편위 로 지 정 하는 페 지 
를 폐지캐쉬에서 찾는다. 

© 패 지 가 패 지 캐 쉬 에 없 으면 기 억 기 령 역 의 VM _ RAND_READ 기 발값을 검 사한다. 
madviseO 체계 호출을 사용하여 이 기 발값을 변경할수 있다. 기 발이 설정되 여있으면 사 
용자응용프로그람이 해당 파일에 대해 지금 접근하는 폐지외에 페지를 더 읽지 않을것임 
을 나타낸다. 

• VM _ RAND_READ 기 발이 설정되 여 있으면 page _ cache _ read () 를 호출하여 요청 
한 폐지만을 디스크에서 읽는다. 

• VM _ RAND_READ 기 발이 설정 되 여 있지 않으면 page _ cache_read () 를 여 러 번 
호출하여 요청 한 폐 지 뿐만아니 라 기 억 기 령 역안에 있는 린접 한 폐 지 들의 분구를 읽 도록 
한다. 분구의 길이는 page_request 변수에 저장되여있다. 기본값은 3폐지인데 체계관리 
자가 / proc / sys / vm / page-cluster 특수파일에 값을 써서 바꿀수 있다. 

다음으로 함수는 4단계 로 돌아가서 폐 지 캐 쉬 탐색 을 계 속한다. ( page _ cache _ read () 
함수가 실행되는 동안 프로쎄스는 차단되 여있어 야만 한다.)여기 에 이르면 페지 가 폐지캐 
쉬 에 들어 있다. 페지의 PG_uptodate 기 발을 검사한다. 기 발이 설정되 여 있지 않으면 (페 
지의 내용이 최신이 아님) 다음 단계를 실행한다. 

PG_locked 기발을 설정하여 폐지에 열쇠를 건다. 필요하다면 잠든다. 
address_space 객체의 readpage 메 쏘드를 호출하여 입출력 자료전송이 시작하게 

된 다. 

c . wait _ on _ page () 를 호출하여 입출력자료전송이 완료될 때까지 기 다린다. 

⑥ 이제 폐지는 최신상태로 되 였다. 함수는 기 억기령 역의 VM _ SEQ_READ 기 발을 
검사한다. madviseO 체계호출을 사용하여 이 기발의 값을 변경할수 있다. 기발이 설정 
되 여있으면 사용자응용프로그람이 배 치된 파일의 폐지를 순차적으로 참조할것 임을 나타 
낸다. 따라서 적극적으로 페지를 미리 읽고 접근한 다음에는 즉시 해제해야 한다. 기발 
이 설정 되 여있으면 nopage _ sequential _ readahead (0 를 호출한다. 이 함수는 크기 가 
고정된 큰 미 리읽기창문을 사용한다. 그 길 이는 대 략 하부블로크장치의 최대 미 리읽기창 
문의 크기 이 다. 기 억기 령 역서술자의 vm_raend 마당에 현재 미 리읽기창문의 마지막위 치 
가 들어있다. 함수는 요청한 폐지가 현재 미리읽기창문의 중간에 이르면(대응하는 폐지 
를 먼저 읽음으로써) 미리읽기창문을 앞으로 옳긴다. 그리고 함수는 기억기령역의 폐지 
구역에서 요청한 페지보다 뒤쪽에 있는 폐지를 해제해야 한다. 함수가 기억기령역의 n 
번째 미리 읽기창문을 읽었으면 ( n -3) 번째 창문에 속한 폐지를 디스크로 청소한다. 

⑦ mark _ page _ accessed () 를 호출하여 요청 한 페지 에 접 근했음을 표시 한다. 
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⑧ 요청한 페지의 주소를 반환한다. 


7) 불결한 기억기배치폐지를 디스크로 흘리기 

프로쎄스는 msyncO 체계호출을 사용하여 공유기억기배치에 속하는 불결한 폐지를 
디스크로 쓰기한다. 

이 체계호출은 선형주소구간의 시작주소, 구간의 길이 그러고 다음과 갈은 의미를 
지닌 기발집합을 변수로 받는다. 

MS_SYNC 

입출력연산을 끝낼 때까지 프로쎄스를 연기하도록 체계호출에 요청한다. 이렇 
게 함으로써 호출하는 프로쎄 스는 체 계호출이 끝나면 기 억기배 치의 모든 페지 를 
디스크에 청소하였다는 사실을 확인할수 있다. 

MS—ASYNC 

호출하는 프로쎄스를 연기하지 않고 즉시 반환하도록 체계호출에 요청한다. 

MS—INVALIDATE 

기 억기배 치 에 포함된 모든 폐지를 프로쎄스주소공간에 서 제거하도록 체 계 호출에 
요청 한다. (실제 로는 구현되지 않았다. ) 

sys _ msync () 봉사루린은 선형주소구간에 포함된 각 기억기령역에 대해 

msync _ interval 0을 호출한다. msync _ interval 0함수는 다음과 같은 연산을 수행 한다. 

① 기 억기 령 역서술자의 vm_file 마당이 NULL 이거 나 VM_SHARED 기발이 0이면 0 
을 되돌린다. (기 억기령역은 파일의 쓰기가능한 공유기억기배치가 아니다.) 

② filemap _ sync () 함수를 호출한다. 이 함수는 기억기령역에 포함된 선형주소구간 
에 대응하는 페지표입구점을 탐색한다. 발견한 각 폐지에 대해서 flush _ tlb _ page () 를 
호출하여 대웅하는 TLB (translation lookaside buffer ) 를 청소하고 페지를 불결한것 
으로 표시한다. 

③ MS_SYNC 기 발이 0이 면 끝낸 다. 그렇 지 않으면 다음 단계 를 계 속 수행하여 기 
억기 령역의 폐지를 디스크로 청소하고 모든 입출력자료전송이 완료될 때까지 기 다린다. 
현재 핵 심 부의 마지 막안정 판에 서 는 MS_INVALIDATE 기 발을 무시 한다. 

④ 파일의 i 마디의 i_sem 신호기를 얻는다. 

⑤ filemap _ fdatasync () 함수를 호출한다. 이 함수는 파일의 address_space 객 체 의 
주소를 변수로 받는다. 함수는 address_space 객체의 불결한 페지 목록에 속한 모든 페 
지에 대해서 다음과 같은 단계를 수행한다. 

1. 페지를 불결한 페지목록에서 열쇠가 걸려있는 페지목록으로 옮긴다. 

PG_Dirty 기 발이 설정되 여있지 않으면 목록의 다음 폐지 에 대해서 계속한 
다. (이 폐지를 이미 다른 프로쎄스가 청소하였다.) 

c . 폐지의 사용계수기를 증가시키고 사용계수기에 열쇠를 건다. 필요하면 기다린다. 
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s . 폐지의 PG_Dirty 기 발을 지운다. 

*3,. 페지의 address _ space 객체의 writepage 메쏘드를 호출한다. 

« . 폐지의 사용계수기의 열쇠를 해제 한다. 

블로크장치 파일 과 대 부분의 디 스크기 반파일 체 계 의 writepage 메 쏘드는 

block _ write _ full _ page () 함수를 호출하는 래 퍼함수이 다. 이 메 쏘드는 파일시 작위 치 부 
터의 위 치를 나타내는 블로크번호를 디스크구획 에서의 블로크위 치 를 나타내 는 론리 적 인 
블로크번호로 변환하는 파일체계마다 독자적인 함수를 block _ writejull _ page () 에 전 
달하는데 사용한다. Block _ write _ full _ page () 함수도 앞서 설명한 
block _ read _ full _ page () 함수와 아주 비슷하다. 이 함수는 폐지에 대해 비동기완충기머 
리부를 할당하고 매 완충기머리부에 대해 WRITE 연산을 지정하여 submit _ bh () 함수를 
호출한다. 

⑥ 파일객체에 fsync 메쏘드가 정의되여있는가를 검사한다. 정의되여있다면 실행한 
다. 정규파일의 경우 이 메쏘드는 보통 과일의 i 마디객체를 디스크에 청소하는것으로 끝 
난다. 그러나 블로크장치파일의 경우는 sync_buffers () 를 호출하고 장치의 모든 불결 
한 완충기 에 대 한 입출력자료전송을 활성화한다. 

沒) filemap _ fdatawait () 함수를 실행한다. 함수는 address_space 객체의 열쇠가 걸 
린 폐지목록의 매 페지에 대해서 페지의 열쇠가 해제될 때까지 즉 페지에 대해 진행중인 
입출력자료전송이 완료될 때까지 기다린다. 

⑧ 파일의 i _ sem 신호기를 해제 한다. 

4. 직접입출력전송 

지금까지 본것처럼 Linux 2. 6에서는 파일체계를 통해 정규과일에 접근하는 기법과 
하부블로크장치 파일의 블로크를 참조하여 파일에 접근하는 기법 , 파일기 억기배 치를 설정 
하여 파일에 접근하는 기법 등에 근본적 인 차이는 없다고 할수 있다. 그러나 아주 복잡 
한 프로그람(직접 캐쉬를 관리하는 응용프로그람)의 경우 전체 입출력자료전송기구를 직 
접 조종하려 고 할수 있다. 고성능자료기지봉사기의 경우를 례를 들어 보면 자료기지봉사 
기는 자료기지에 대한 질문의 특성에 따라서 자신의 캐쉬기구를 실현한다. 이런 종류의 
프로그람에는 핵심부의 페지캐쉬가 도움이 되지 않으며 다음과 갈은 리유로 하여 오히려 
방해 가 된다. 

> 이미 기억기(사용자준위의 디스크캐쉬)에 있는 디스크자료와 같은 자료를 저장 
하기 위 해 많은 폐지틀을 랑비한다. 

> 폐지 캐 쉬와 미 리 읽기를 처 리 하는 불필요한 명 령 때 문에 readO 와 write () 체 계 호 
출이 느려 진다. 파일기 억 기 배 치 에 관련된 페 지 화연산의 경 우에 도 마찬가지 이 다. 

> readO , writeO 체계호출에서는 디스크에서 사용자기억기로 자료를 직접 전송 
하지 않고 디 스크에 서 핵 심 부완충기 로 그리 고 핵 심 부완충기 에 서 사용자기 억기 로 
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전송이 두번 일어난다. 

블로크하드웨 어 장치는 새 치기 와 직 접기 억기 접근 ( DMA , Direct Memory Access ) 
을 통해서 처리해야 하며 이것은 핵심부방식에서만 가능하므로 직접 캐쉬기능을 처리하 
는 응용프로그람을 실현하려면 어느 정도의 핵심부자원이 필요하다. 

Linux 판본이 2. 6에서는 페지캐쉬를 건너뛰는《직접입출력전송》이라는 간단한 기법 
을 제공한다. 핵심부는 각 직접입출력전송에 대해서 디스크조종기를 프로그람화하여 자료 
를 직접 캐쉬능을 처리하는 응용프로그람의 사용자방식의 주소공간과 주고받도록 한다. 

앞에서 설명한것처럼 자료전송은 비동기적으로 진행된다. 자료전송중에 핵심부가 현 
재프로쎄스를 전환할수 있으며(다른 프로쎄스로 순서짜기할수 있다.) CPU 가 사용자방 
식으로 돌아왔을 때 자료전송을 시작한 프로쎄스가 교체되여 나가게 될수 있다. 일반적 
인 입출력자료전송의 경우 디스크캐쉬폐지를 사용하므로 이 방식이 잘 동작한다. 

교체되여 나가지 않는 핵심부가 디스크캐쉬를 소요하고있으며 핵심부방식의 모든 프 
로쎄스가 디스크캐쉬를 볼수 있다. 그러 나 직접입출력전송은 프로쎄스의 사용자방식의 
주소공간에 속한 폐지의 자료를 대상으로 한다. 핵심부는 이 폐지를 핵심부방식에 있는 
모든 프로쎄스가 볼수 있게 하고 자료전송진행중에 이 폐지가 교체되여 나가지 않도록 
해 야 한다. 이를 위 해 《직접 접근완충기 (direct access buffer ) 》를 사용한다. 

직접접근완충기는 직접입출력자료전송을 위해 예 약된 물리적 인 폐지틀의 집합으로 
구성 된다. 이 완충기 는 직 접 고속완충응용프로그람의 사용자방식 의 페 지 표와 핵 심 부폐 지 
표(각 프로쎄스의 핵심부방식의 페지표) 모두에 배 치되 여있다. 각 직접접근완충기는 
kiobuf 자료구조로 되여있으며 이 자료구조의 마당은 표 2-21 과 같다. 


H 2-21. 직_5&충71 서술자□[당 


형 

마 당 

설 명 

int 

nr pages 

직접접근완충기 에 들어 있는 페지수 

int 

array len 

map array 마당의 여유요소수 

int 

offset 

직접접근완충기의 첫번째 폐지에서 의미있 
는 자료의 편위 

int 

length 

직접접근완충기에 있는 의미있는 자료의 
길이 

struct page ** 

maplist 

직접접근완충기에 있는 폐지들을 가리키는 

폐지서술자지시자목록 

(일반적으로 map array 마당을 가리킨다.) 

unsigned int 

locked 

직 접 접 근완충기 에 있는 모든 페 지 의 잠그 

기 기발 
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struct page *[] 

map array 

페지서술자지시자 129 개의 배렬 

struct buffer_ head * 

bh 

미리 할당된 완충기머리부지시자 1024 개의 
배렬 

unsigned long [] 

blocks 

론러적블로크번호 1024 개의 배렬 

atomic_t 

io_count 

입 출력 이 진행 중인지 나타내 는 원자적 인 
(atomic) 기 발 

int 

errno 

마지막 입출력연산의 오유번호 

void(*) (struct kiobuf *) 

end io 

완료메쏘드 (completion method) 

wait_queue headt 

wait_qreue 

입출력 이 완료되길 기 다리는 프로쎄스의 

대기 렬 


직접고속완충응용프로그람이 파일에 직접 접근하여 한다고 가정하자. 먼저 응용프로 
그람은 0_DIRECT 기 발을 설정하여 파일을 연다. openO 체 계 호출의 봉사과정 에서 
dentry_open() 함수는 이 기발값을 검사한다. 기발이 설정되여있으면 함수는 
alloc_kiovec() 를 호출하여 새로운 직접접근완충기서술자를 할당하고 그 주소를 파일객 
체의 : fjobuf 마당에 저장한다. 완충기는 처음에 폐지틀을 포함하지 않으며 따라서 서술 
자의 mr_pages 마당값은 0 이다. 그러나 alloc_kiovec() 는 완충기 머 리부 1024 개를 미리 
할당하며 완충기머리부주소는 서술자의 bh 배럴에 저장한다. 이 완충기머리부로 하여 직 
접 고속완충응용프로그람이 파일 에 직 접 접 근하면서 차단되 는 경 우가 발생 하지 않는다. 
이 접근방법의 부족점은 한번에 전송될수 있는 자료전송의 단위가 최대 512kB 라는 점 
이 다. 

다음으로 직접 고속완충응용프로그람이 0_DIRECT 로 열었던 파일에 대해 readO 
또는 writeO 체계호출을 하였다고 가정하자. 이 절의 앞에서 언급한것처럼 
generic_file_read() 와 generic_file_wirte() 함수는 기발의 값을 검사하여 기발이 설정 
되여있으면 별도의 경우로 처리한다. 례를 들어 generic_file_read() 함수는 다음과 같 
은 부분 코드를 실행 한다. 

함수는 파일지적자, 파일크기, 요청한 문자수 등의 현재값을 검사하고 
generic_file_direct_I ◦를 호출한다. 변수로는 READ 연산류형, 파일객체지적자, 사용 
자방식의 완충기 주소, 요청 한 바이트수，파일지 적자를 전달한다. generic_file_write() 
함수도 마찬가지다. 다만 generic_file_direct_I ◦함수에 WRITE 연산류형을 전달한다. 

generic_file_direct_IO() 함수는 다음과 같은 단계를 수행한다. 

① 파일객체의 fjobuf_lock 열쇠를 검 사하고 설정 한다. 이미 열쇠가 설정 되 여 있 다 
면 fjobuf 에 저장된 직접접근완충기서술자를 다른 직접입출력전송에서 사용하고있는것 
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이므로 함수는 새로운 직접접근완충기서술자를 림시로 할당하여 이후 단계에서 사용한다. 

② 파일지적자편위와 요청한 문자수가 파일의 블로크크기의 배수인가를 검사한다. 

배수가 아니면 EINVAL 을 반환한다. 

③ 파일의 address_space 객체의 direct_I ◦메 쏘드 ( filp -> f _ dentry -> d_inode - > i _ 
mapping ) 가 정의되 여있는지 검사한다. 정의되여 있지 않으면 EINVAL 을 반환한다. 

④ 직접고속완충응용프로그람이 파일에 직접 접근하더라도 체계의 다른 응용프로그 
람이 페지캐쉬를 통해 파일에 접근할수 있다. 자료손실을 막으려 고 직접입출력전송을 시 
작하기 전에 디스크영상과 페지캐쉬를 동기화한다. 함수는 filemap _ fdatasync () 함수를 
호출하여 파일의 기억기배치에 속한 불결한 페지를 디스크로 청소한다. 

⑤ fsync _ inode _ data_buffers () 함수를 호출하여 writeO 체 계 호출에 의 해 갱 신된 
불결한 폐지를 디스크에 청소하고 입출력자료전송이 완료될 때까지 기다린다. 

⑥ 4단계 에서 시 작한 입 출력 연산이 완료될 때 까지 기 다리 기 위 해 

filemap _ fdatawait () 함수를 호출한다. 

⑦ 순환을 시 작하며 전송할 자료를 512 kB 단위 의 뭉치 ( chunk ) 로 나눈다. 함수는 
각 뭉치 에 대해 다음과 갈은 단계를 수행 한다. 

직접접근완충기 와 뭉치 에 대 응하는 사용자준위 완충기사이의 배 치를 설정 하기 
위해 map _ user _ kiobuf 0를 호출한다. 함수는 배치설정을 위해 다음을 수행한다. 

■ expand_kiobuf 0 를 호출하여 직 접 접 근완충기 서 술자에 들어 있는 배 럴 이 너 무 작 
으면 새로운 페지서술자주소의 배렬을 할당한다. 그러나 여기서는 map_array 마당의 입 
구점 129개가 512 kB 뭉치를 배치하는데 충분하므로 문제되지 않는다. (추가적 인 폐지가 
필요한 경우는 완충기가 패지맞춤 ( align ) 되지 않은 경우이다.) 

• 뭉치 안에 있는 모든 사용자폐 지 에 접 근하여 (폐 지 오유가 발생 하는 경 우에 는 폐 지 
를 할당한다.) 폐지주소를 직접접근완충기서술자의 maplist 마당이 가리키는 배럴에 저 
장한다. 

■ nr _ pages , offset , length 마당을 적절히 초기화하고 locked 마당을 0으로 설정 

한다. 

파일의 address_space 객체에 있는 direct_I ◦메 쏘드를 호출한다. 

c . 연산류형 이 READ 이 면 mark _ dirty_kiobuf 0 를 호출하여 직 접 접 근완충기 가 
배 치 한 폐 지 를 불결 한것 으로 표시 한다. 

h . unmap _ kiobuf () 를 호출하여 뭉치와 직접접근완충기사이의 배치를 해제하고 
다음 뭉치 에 대 해 작업을 계속한다. 

⑧ 함수가 1단계에서 림시직접접근완충기를 할당했으면 이것을 해제한다. 그렇지 않 
으면 파일객체의 f _ iobuf_lock 열쇠를 해제한다. 

거의 모든 경우 direct_I ◦메쏘드는 generic _ direct _ IO () 함수에 대한 래퍼 이며 볼로 
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크장치에서 물리적블로크위치를 계산하는 파일체계마다 독자적인 함수의 주소를 
generic _ direct _ IO () 함수에 변수로 전달한다. generic _ direct_IO 함수는 다음 단계를 
수행 한다. 

① 현재 뭉치 에 대응하는 파일부분의 각 블로크에 대 해 파일체 계 마다 독자적 인 함수 
를 호출하여 론리적인 블로크번호를 구하고 이 번호를 직접접근완충기서술자의 blocks 
배렬에 잇는 입구점하나에 저장한다. Linux 의 최소블로크크기가 512 B 이므로 이 배렬 
의 입구점수 1( 犯4개로 충분하다. 

② brw _ kiovec () 함수를 호출한다. 이 함수는 blocks 배렬의 각 블로크에 대해 직 
접 접 근완충기 서 술자의 bh 배 럴 에 저 장된 완충기 머 리 부를 사용하여 submit _ bh () 함수를 
호출한다. 직접 입출력연산은 완충기입출력 또는 폐지입출력연산과 비슷하다. 그러 나 완 
충기 머 리 부의 b _ end_io 메 쏘드는 end _ buffer _ io_syne 0 나 end _ buffer _ io_async 0 가 
아닌 end_bu 打 er _ io_kiobuf () 라는 함수로 설정된다. 이 메쏘드는 kiobuf 자료구조의 
마당을 처리한다. brw _ kiovec () 는 입출력자료전송이 완료되여야만 되돌이한다. 


제 3 절 . Ext2, Ext3 파일체계 

이 절에서는 특정파일체계와 호상작용하기 위해 핵심부가 해야 하는 일을 본다. 
Ext 2(2 차확장파일체계)는 Linux 고유의 파일체계이고 대부분의 Linux 체계에서 사용하 
고있으므로 가장 적절한 파일체계 이 다.또한 Ext 2 는 최신의 파일체계특성을 고성능으로 
제공한다. 물론 다른 조작체 계 를 위 해 설계된 다른 파일체 계 들도 새 롭고 흥미있는 요구 
사항을 실현하고있겠지만 여기서는 여러 파일체계의 차이점에 대해서는 보지 않는다. 

Ext 2 의 일반적 인 특징 에서는 Ext 2 를 소개 하고 펼요한 자료구조를 설명한다. 파 
일체계가 디스크에 자료를 저장하기 위한것이므로 두 종류의 자료구조를 다루어야 한다. 

Ext 2 디스크자료구조에서는 Ext 2 가 디스크에 저장한 자료구조를 살펴보고 Ext 2 기억 
기자료구조에서는 디 스크에 있는 자료를 기 억 기 에 복제 했을 때 의 자료구조를 본다. 

그 다음에는 파일체계에서 실행되는 연산을 설명한다. Ext 2 파일체계생성에서는 디 
스크구획 에 Ext 2 파일 체 계 를 생 성 하는 방법 을 설 명한다. 다음으로 디 스크를 사용할 때 
핵 심 부가 항상 실 행하는 작업 을 설 명한다. 이 중 대 부분은 i 마디 와 자료블로크를 저 장하 
기 위해 디스크공간을 할당하는 비교적 저수준인 작업이다. 

마지막으로 Ext 2 가 발전한 다음 단계 인 Ext 3 파일체계를 간단히 본다. 

1. Ext 2 의 일반적인 특징 

Unix 계렬의 조작체계에서는 서로 다른 여러 종류의 파일체계를 사용한다. 모든 파 
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일체계 의 파일은 statO 와 같은 POSIX API 가 요구하는 공통속성 을 포함하고있지 만 각 
파일체 계의 실현은 서 로 다르다. 

최초의 Linux 판본은 Minix 파일체계를 기반으로 했지만 Linux 가 성장하면서 확장 
파일 체 계 (Ext FS) 를 도입하였 다. 이 파일 체 계 는 몇 가지 중요한 확장을 포함했지 만 성 
능이 만족스럽지 못하였다. 그후 1994 년에 2 차확장파일체계 (Ext2) 를 도입하였다. 
Ext2 는 몇가지 새로운 특성은 물론 매우 효률적이고 안전하기때문에 지금 가장 널러 사 
용하는 Linux 파일체 계로 되 였다. 

Ext2 의 효률성은 다음과 같은 특성때문이다. 

> Ext2 파일체 계를 생성할 때 체 계 관리 자는 예상하는 평 균파일크기 에 따라 최적의 
블로크크기 를 (1024-4096B) 선택할수 있 다. 례 를 들어 평 균파일크기 가 수 kB 이 
하일 때 내부단편화 (internal fragmentation) 를 줄일수 있으므로 1024 블로크 
크기가 좋다. 내부단편화는 파일의 길이와 파일을 저장하는 디스크공간의 크기 
차이때문에 발생한다. 반면에 파일크기가 수 kB 이상인 경우에는 디스크전송회수 
를 줄여 체계부하를 줄일수 있으므로 큰 블로크크기가 좋다. 

> Ext2 파일체계를 생성할 때 체계 관리 자는 예상하는 파일수에 따라 같은 크기의 
구획에 들어갈 i 마디수를 선택할수 있다. 이렇게 함으로써 실제 사용할수 있는 
디스크 공간을 최대화할수 있다. 

> 파일체계는 디스크블로크 몇개를 그룹으로 관리한다. 각 그룹에는 서로 린접하는 
자리길에 저장된 자료블로크 i 마디를 포함한다. 이 구조로 하여 단일 블로크그롭내 
에 저장된 과일에 접근하는데 필요한 디스크탐색시간은 평균보다 낮아진다. 

> 파일체계는 디스크자료블로크를 사용하기 전에 정규파일에 미리 할당한다. 따라 
서 파일크기가 증가할 때 몇개의 블로크가 이미 물리적으로 린접한 위치에 예약 
되 여있기 때 문에 파일 단편화를 줄일수 있 다. 

> 빠른 기호련결을 지원한다. 기호련결의 경로명이 60B 이하이면 i 마디에 경로명 
을 저장한다. 따라서 자료블로크를 읽지 않고 경로명변환이 가능하다. 

> 이 외 에 도 Ext2 에 는 파일체 계 를 안전하고 융통성있게 해 주는 다른 특징 이 있 다. 

> 체계파괴 (crash) 로 인한 영향을 최소화하고 파일갱신전략을 실현하였다. 례를 
들어 파일에 대해 새로운 하드련결을 생성하면 디스크 i 마디에 있는 하드련결계 
수기수가 먼저 증가하고 적절한 등록부에 새로운 이름을 추가한다. 이렇게 함으 
로써 i 마디를 변경한 다음 등록부변경이전에 하드웨어고장이 발생하더라도 등록 
부의 일 관성 을 유지 할수 있 다. 물론 i 마디 의 하드련결계 수기 는 잘못되 여있 다. 
이 파일을 삭제하더라도 심각한 결과를 일으키지는 않으며 단지 파일의 자료블 
로크를 자동으로 회수할수 없을뿐이다. 갱신순서가 반대로 이루어지는 경우에는 
(등록부를 먼저 변경하고 i 마디를 갱신하는 경우) 같은 하드웨어고장으로 인해 
위험한 불일치 (inconsistency) 가 발생 할수 있다. 원본 하드련결을 삭제 하면 
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자료블로크도 디스크에서 제거할수 있는데 새로운 등록부항목은 더는 존재하지 
않는 i 마디를 가리킬것이다. 후에 이 i 마디번호를 다른 파일에 사용하게 되면 
이전 등록부항목에 쓰는 작업이 새로운 파일을 손상시킬수 있다. 

> 기동시에 파일체계상태에 대한 일관성검사를 자동으로 제공한다. 이 검사는 
e 2 fsck 라는 외부프로그람이 수행한다. 이 프로그람은 체계충돌이후 지정된 수 
만큼 파일체계를 탑재한 후(각 탑재연산후에 계수기가 증가한다.) 또는 가장 최 
근에 수행한 검사이후 지정된 시간이 지났을 때 검사를 시작한다. 

> 변경 불가능과일 (파일을 수정，삭제 하거 나 이 름을 변경 할수 없 다. )，추가가능 파 
일 (파일의 맨끝에 자료를 덧 붙이 는것 만 가능하다. )을 지 원한다. 

> 새로운 파일의 그룹 ID 에 Unix 체계 V Release ( SVR 4), BSD 실현과 호환성을 
제공한다. SVR 4 에서 새 로운 과일은 자신을 생성한 프로쎄스의 그롭식 별자를 
가진다. BSD 에서 새로운 파일은 자신을 포함하는 웃준위등록부의 그룹식별자 
를 물려받는다. Ext 2 에 는 둘중 어 떤방식 을 사용할지 를 지 정 하는 탑재 선택 항목 
이 있다. 

Ext 2 파일체계는 안정적이고 완성도가 높은 프로그람이며 최근에는 큰 변화가 없었 
다. 그렇지만 몇가지 새로운 기능추가가 론의되고있다. 그중 어떤것은 이미 외부패치형 
태 로 코드가 작성되 여있기도 하고 계 획만 있는 경우도 있으며 실현을 위한 마당이 Ext 2 
i 마디 에 추가되 여있는 경우도 있다. 론의 되 고있는 주요기능으로 다음과 같은것 이 있 다. 

A 블로크단편화 

응용프로그람이 자주 큰 파일을 다루기때문에 체계관리자는 디스크접근을 위해 일반 
적 으로 큰 블로크크기 를 선택한다. 결과적 으로 작은 파일 이 큰 블로크에 저 장되 여 많은 
디스크공간을 랑비한다. 여러 파일을 같은 블로크에 속한 서로 다른 단편에 저장할수 있 
게 하여 이 문제를 해결할수 있다. 

A 접근조종목록 

파일의 사용자를 세 부류(소유자，그룹，기타)로 분류하는 대신 각 파일에 특정사용 
자 또는 사용자집합에 대한 접근권한을 나타내는 접근조종목록 ( ACI , Access Control 
List ) 을 련결한다. 

압축된 파일과 암호화된 파일의 처 리 

이 항목들은 새로운 파일을 생성할 때 에만 지정할수 있다. 파일을 사용하면 자동으 
로 파일을 압축하거나 암호화하여 디스크에 저장하도록 한다. 

4 론리적삭제 

삭체 취 소항목을 사용하여 사용자가 요청하면 이전에 삭제한 파일내 용을 쉽 게 복구할 
수 있다. 

^ 기록형기능 

기록형기능을 사용하면 파일체계가 비정상적으로 탑재해제되였을 때(례를 들면 체계 
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가 중단되였을 때) 자동으로 실행되며 시간이 많이 걸리는 파일체계검사가 필요없게 된다. 

Ext 2 는 대부분의 Linux 배포판회 사에서 가장 신임 하는 파일체계 이고 Ext 2 만큼 철 
저 하게 검사해서 사용하는 파일체 계는 없다. 

2. Ext 2 디스크자료구조 

모든 Ext 2 구획의 첫번째 블로크는 Ext 2 파일체계가 관리하지 않는다. 이 블로크는 
구획 기 동분구를 위 해 예 약되 여있 다. Ext 2 구획 의 나머 지 부분은 블로크그룹 단위 로 
나눈다. 각 블로크그룹의 내부배치는 그림 2-5 와 같다. 그림에서 알수 있는것처럼 어떤 
자료구조는 반드시 한 블로크에 저장해야 하고 어떤것은 한 블로크이상을 사용한다. 파 
일체계의 모든 블로크그룹은 같은 크기이며 순차적으로 저장된다. 그러므로 핵심부는 블 
로크그룹의 옹근수색인값으로부터 디스크에서 블로크그름이 차지한 위 치를 구할수 있다. 

핵심부는 가능하면 한 파일의 자료블로크를 같은 블로크그롭에 저장하려 하므로 블 
로크그를은 파일단편화를 줄이는 효과가 있다. 블로크그룹의 매 블로크는 다음의것들 가 
운데서 한가지 정보를 포함한다. 

> 파일체계의 초블로크 복사본 

> 블로크그롭서 술자그롭의 복사본 


기동블로크 

블로크 그룹 0 


블로크그룹 n 


스 


초불로 

그룹 

자료블로크 

i 마디 비트 

I 마디 표 

자료블로크들 

크 

서 슬자들 

비 트배 치 표 

배치표 



1 블로크 

n 블로크 

1 블로크 

1 블로크 

n 블로크 

n 블로크 


그림 2-5. Ext 2 구획과 Ext 2 블로크그룹의 내부배치 


> 자료블로크비트배치표 

> i 마디 의 그룹 

> i 마디 의 비 트배 치 표 

> 파일에 속한 자료의 덩어리 즉 한 자료블로크 

어떤 블로크가 의미 있는 정보를 전혀 포함하지 않으면 여유 ( free ) 블로크라고 한다. 
그림에서 볼수 있는것처럼 초블로크와 그룹서술자는 각 블로크그룹에 복제되여있다. 
핵심부는 블로크그룹0에 속한 초블로크와 그롭서술자만 사용하며 나머지 초블로크와 그 
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롭서술자는 변경되지 않은채 남아있다. 사실 핵심부는 이것들을 읽어보지도 않는다. 
/ sbin / e 2 fsck 프로그람이 파일체계상태의 일관성 검사를 수행 할 때 블로크그를 0에 저장 
한 초블로크와 그룹서술자를 읽어서 다른 모든 블로크그룹에 복사한다. 자료가 파괴 되 여 
블로크그룹 0의 초블로크 또는 그롭서술자를 사용할수 없을 때 체계관리자는 
/ sbin / e 2 fsck 에 첫번째 블로크그롭외의 블로크그룹에 저장한 초블로크와 그롭서술자를 
사용하도록 지시할수 있다. 일반적으로 중복된 이 복사본들은 / sbin / e 2 fsck 가 Ext 2 구 
획 을 일 관성있는 상태 로 되 돌리 는데 충분한 정 보를 담고있 다. 

구획에는 블로크그룹이 몇개나 있는가? 이것은 구획의 크기와 블로크크기에 따라 
결정된다. 한가지 제약조건은 그룹내에서 사용중인 블로크와 여유블로크를 구분하기 위 
해 사용하는 블로크비트배치표를 반드시 단일블로크에 저장해야 한다는 점이다. 따라서 
블로크크기를 B 단위로 나타낸 값을 b 라고 할 때 각 블로크그룹에는 최대 8* b 개 블로크 
가 있을수 있다. 따라서 구획의 블로크수를 s 라고 할 때 블로크그룹의 수는 대략 
s /(8* b ) 이 다. 

례를 들어 블로크크기가 4 kB 인 Ext 2 구획 8 GB 가 있다고 하자. 이 경우 각 4 kB 블 
로크비트배 치표는 자료블로크 32 K 개를 나타낼수 있으므로 128 MB 가 된다. 따라서 최대 
64블로크그룹이 필요하다. 블로크크기가 작을수록 블로크그룹개수가 늘어나게 된다. 

1) 초블로크 

Ext 2 디 스크초블로크는 ext 2_ super _ block 구조체 에 저 장된 다. 

이 구조체의 마당은 표 2-22 에 있다. _ u 8, _ ul 6, _ u 32 자료형태는 각각 길이가 
8, 16, 32 bit 인 부호없는 ( unsigned ) 수를 나타내고 _ s 8, _ sl 6, _ s 32 자료형태는 각 
각 8, 16, 32 bit 인 부호있는 ( signed ) 수를 나타낸다. 


M 2-22. Ext 2 초 gS 크 flKif 


형 

마 당 

설 명 

u 32 

s inodes count 

총 i 마디수 

u 32 

s blocks count 

파일 체 계 크기(블로크 단위 ) 

u 32 

s — r blocks count 

예약된 블로크수 

u 32 

s free blocks count 

여유 블로크수 

u 32 

s f ree inodes count 

여 유 i 마디수 

_ u 32 

s _ free _ data_block 

사용가능한 첫번째 블로크 번호(언 
제나 1) 

u 32 

s log block size 

블로크크기 

_ u 32 

s _ log _ frag_size 

단편 크기 
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u32 

s blocks per group 

그룹당 블로크수 

u32 

s frags per group 

그를당 단편수 

u32 

s inodes per group 

그룹당 i 마디수 

u32 

s mtime 

마지막 탑재연산시간 

u32 

s wtime 

마지막 쓰기연산시간 

ul6 

s mnt count 

탑재 연산수 

ul6 

s max mnt count 

검사전 탑재 연산수 

ul6 

s magic 

식별번호 (magic number) 

ul6 

s state 

상태기 발 

ul6 

s crrors 

오유를 검출했을 때 동작 

ul6 

s minor rev level 

세부개정수준 

u32 

s lastcheck 

마지막 검사시간 

u32 

s checkinterval 

검사사이의 시간간격 

u32 

s creator os 

파일체계가 생성된 OS 

u32 

s rev level 

개정 준위 

ul6 

s def resuid 

예 약된 블로크의 기 본 UID 

ul6 

s def resgid 

예약된 블로크 의 기 본 GID 

u32 

s first ino 

예 약되 지 않은 첫 번째 i 마디 번 호 

ul6 

s inode size 

디스크우의 i 마디구조 크기 

ul6 

s block group nr 

이 초블로크의 블로크그룹 

u32 

s feature compat 

호환가능한 특징비 트배 치 표 

u32 

s feature incompat 

호환되지 않는 특징비트배치표 

_u32 

s_f eatu re_ro_compat 

읽기전용으로 호환되는 특징비트배 
치 표 

u8[16] 

s uuid 

128bit 파일체계식별자 

char [16] 

s bolumi name 

볼륨이름 

char [64] 

s last mounted 

마지막 탑재지점의 경로이름 

_u32 

s_algorithm_usage_bitm 

ap 

압축을 위 해 사용됨 

u8 

s prealloc blocks 

미 리 할당하는 블로크수 

_u8 

s_prealloc_dir_blocks 

등록부를 위 해 미 리 할당하는 블로 
크수 

ul6 

s paddingl 

문자경계에 맞춤 

_u32[204] 

s_reserved 

1024B 를 맞추기 위한 빈 공간 
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s _ inodes _ count 마당은 Ext 2 파일체계에 있는 i 마디수를 저장하고 s _ block_count 
마당은 블로크수를 저 장한다. 

s _ 

log _ block _ size 마당은 블로크크기를 2의 지수로 나타내는데 단위는 1024 B 이 다. 따 
라서 0은 1( 犯 4 B 블로크를 나타내고 1은 2048 B 블로크를 나타낸다. s _ log _ frag _ size 마당 
은 현재 s _ log _ block _ size 와 같다. (블로크단편화가 아직 실현되지 않았기때문이다.) 

s_b 1 ocks _ per _ group , s _ frags _ per _ group , s _ inodes _ per _ group 마당은 각각 블 
로크그룹의 블로크수，단편수, i 마디수를 나타낸다. 

어느 정도의 디스크블로크는 초사용자(또는 s _ def _ resuid 와 s _ def_resgid 마당을 
통해 지정 한 사용자 또는 사용자그를)를 위해 예 약되여있다. 이 블로크는 일반사용자가 
사용할수 있는 여유블로크가 더는 없을 경우에도 체계관리자가 파일체계를 사용할수 있 
게 한다. 

s _ mnt _ count , s _ max _ mnt _ count , s _ lastcheck , s _ checkinterval 마당은 기 동과 
정에서 Ext 2 파일체계를 자동으로 검사하도록 한다. 이 마당들은 탑재연산을 지정된 수 
만큼 실행했거나 마지막 일관성검사이후 지정된 시간이 경과했을 때 / sbin / e 2 fsck 를 실 
행하게 한다.(두 종류의 검사를 동시에 사용할수 있다.) 파일체계가 탑재해제되지 않았 
거나(례를 들면 체계붕괴이후) 핵심부가 파일체계에서 어떤 오유를 발견했을 때도 기동 
시간에 일관성검사를 수행한다. s _ state 마당은 파일체계를 탑재한 상태거나 제대로 탑재 
해제되지 않았을 때 0을 저장하고 제대로 탑재해제되였을 때 1을 저장하며 오유를 포함 
하고있을 때 2를 저장한다. 

2) 그룹서술자와 비트배치표 

각 블로크그룹에는 자기만의 그룹서술자가 있다. 

표 2-23 에서 ext 2_ group _ desc 구조체 마당을 보여 준다. 


M 2-23 Ext 2 그뼤 " Df 당 


형 

마 당 

설 명 

u 32 

bg block bitmap 

블로크비 트배 치 표의 블로크번 호 

u 32 

bg inode bitmap 

i 마디비트배치표의 블로크번호 

u 32 

bg inode table 

첫번째 i 마디표블로크의 블로크번호 

ul 6 

bg f ree blocks count 

그룹안에 있는 여유블로크수 

ul 6 

bg free inodes count 

그룹안에 있는 등록부수 

_ ul 6 

bg _ used _ dirs_count 

그룹안에 있는 등록부수 
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ul 6 

bg pad 

문자정렬을 위한 빈 공간 

32[3] 

bg reserved 

24 B 를 채 우기 위한 빈 공간 


새로운 i 마디와 자료블로크를 할당할 때 bg _ free _ blocks _ count , 
bg _ free _ inodes _ count , bg _ used _ dirs _ count 마당을 사용한다. 이 마당은 매 자료구 
조를 할당하는데 가장 적절한 블로크를 선택할 때 사용한다. 비트배치표는 비트의 련속 
으로서 값이 0인 경우는 대응하는 i 마디 또는 자료블로크가 여유있다는 의미고 값이 1인 
경우는 사용중이라는 의미이다. 각 비트배치표는 반드시 단일블로크에 저장해야 하며 블 
로크크기는 1024, 2048, 4096 B 일수 있으므로 비트배 치표하나는 블로크 8192, 16384, 
32768개의 상태를 나타낼수 있다. 


3) i 마디표 

i 마디표는 린접 하는 련속된 블로크로 이루어져있으며 각 블로크는 미 리 정의된 수의 
i 마디를 포함한다. i 마디표에서 첫번째 블로크의 블로크번호는 그룹서술자의 
bg _ inode _ table 마당에 저장된다. 

모든 i 마디의 크기는 128 B 이다. 1024 B 블로크는 i 마디 8개를 포함하고 4096 B 블로 
크는 i 마디 32개를 포함한다. i 마디표가 얼마나 많은 블로크를 차지하는지 알려면 그룹 
에 속하는 전체 i 마디 수(초블로크의 s _ inodes _ per _ group 마당에 저 장되 여있 다. )를 블로 
크당 i 마디수로 나누면 된다. 

매 Ext 2 i 마디는 ext 2 Jnode 구조체로 이루어 져 있 다. 

표 2-24 에서 이 구조체마당을 볼수 있다. 


표 2-24. _ Ext 2 디스크 i 매:旧[당 


형 

마 당 

설 명 

ul 6 

i mode 

파일류형과 접근권한 

ul 6 

i uid 

소유자식별자 

u 32 

i size 

파일길 이 ( B 단위 ) 

u 32 

i atime 

마지막 파일접근시간 

u 32 

i ctime 

i 마디가 마지막으로 변경된 시간 

ul 6 

i mtime 

파일의 내용이 마지막으로변경된 시간 

u 32 

i dtime 

파일삭제시간 

ul 6 

i gid 

그룹식별자 

ul 6 

i links count 

하드련결수 

_ u 32 

i_blocks 

파일의 자료블로크수 
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u32 

i frags 

파일 기발 

union 

i osdl 

특정 조작체 계 

_u32 [EXT2 
N BLOCKS] 

i_block 

자료블로크에 대한 지시자 

u32 

i generation 

파일 판본 (NFS 용) 

u32 

i file acl 

파일접근조종목록 

u32 

i dir acl 

등록부접 근조종목록 

u32 

i faddr 

단편주소 

union 

osd2 

특정조작체계정보 


POSIX 명세와 관련한 많은 마당은 VFS 의 i 마디객체의 대응하는 마당과 류사하다. 
나머지는 Ext2 의 특정실현과 관련있으며 주로 블로크할당을 처리한다. 

특히 i_size 마당은 파일의 실제길이를 B 단위로 나타내는 반면에 i_blocks 마당은 파 
일에 할당된 자료블로크수 (512B 단위)를 나타낸다. 

i_size 와 i_blocks 값이 항상 서로 관련된것은 아니 다. 언제나 정수개의 블로크에 파 
일을 저장하기때문에 비여있지 않은 파일은 최소한 자료블로크 하나를 포함한다. (단편화 
가 아직 실현되지 않았기때문에) i_size 는 512 * i_blocks 보다 작을수도 있다. 반면에 
뒤 에 나오는《 파일구멍》에서 보지만 파일에 구멍 (hole) 이 있을수도 있다. 이 경우에 
i_size 는 512 * i_blocks 보다 클수도 있다. 

i_block 마당은 파일에 할당된 자료블로크를 식별하는데 사용하는 블로크를 가리키 
는 지적자 EXT2_N_BLOCKS 개 (보통 15) 의 배럴이다. 

i_size 마당을 위 해 32bit 가 예 약되 여있으므로 파일크기 는 4GB 로 제 한된다. 실제 로 
i_size 마당의 제일 웃준위비트는 사용하지 않으므로 최대파일크기는 2GB 로 제한되다. 
그러 나 Ext2 파일체계는 HP 의 Alpha 와 같은 64bit 방식 에서 더 큰 파일을 허용하도록 
《 불결한 책 략 (dirty trick) 》을 도입 하였다. 즉 정규파일에서 사용되지 않는 i 마디의 
i_dir_acl 마당을 i_size 마당의 32bit 확장으로 사용하는것이다. 따라서 파일크기를 i 마당 
에 64bit 로 정수로 저장할수 있다. Ext2 파일체계의 64bit 판본은 32bit 판본과 어느 정도 
호환한다고 할수 있다. 64bit 방식 에서 생성 한 Ext2 파일체계를 32bit 방식 에서 탑재 할수 
있으며 그 반대도 가능하기때문이다. 그러나 32bit 방식에서는 0_LARGEFILE 기발을 
설정하지 않으면 큰 파일에 접근할수 없다. 

VFS 모형에서는 각 파일의 i 마디번호가 서로 달라야 한다. Ext2 에서는 파일의 i 마 
디 번 호를 디 스크에 저 장할 필 요가 없 다. 블로크그룹번 호와 i 마디표의 상대 적 인 위 치 로부 
터 i 마디번호를 구할수 있기때문이다. 례를 들어 각 블로크그롭에 i 마디가 4096 개 있고 
디스크에서 i 마디 13021 의 주소를 원한다고 하자. i 마디는 세번째 블로크그룹에 속해있 
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으며 디 스크주소는 대 응하는 i 마디 표의 733번째입 구점 에 저 장되 여있다. Ext 2 의 루린은 
디스크에서 적절한 i 마디서술자를 빨리 얻기 위해 i 마디번호를 열쇠 ( key ) 로 사용한다. 

4) 여러 파일류형의 디스크블로크사용법 

Ext 2 가 인식하는 여 러 류형의 파일은(정규파일, 관, 기 타) 자료블로크를 서로 다른 
방법으로 사용한다. 어떤 파일은 자료를 저장하지 않으며 따라서 자료블로크가 전혀 필 
요없다. 여기서는 표 2-25 에서 각 류형의 보관사항을 본다. 


표 2-25. _ Ext 2 立멜류형 


file type 

설 명 

0 

알수 없음 

1 

정규파일 

2 

등록부 

3 

문자장치 

4 

블로크장치 

5 

이름붙은 ( named ) 관 

6 

소케트 

7 

기호련결 


4 정규파일 

정규파일은 가장 일반적인 경우이며 이 장의 대부분이 정규파일에 관한 내용이다. 
정규파일에 자료를 저장하자면 자료블로크가 있어야 한다. 처음 정규파일을 생성할 때에 
는 파일이 비여있으므로 자료블로크가 없어도 된다. 또한 tmncateO 나 openO 체계호 
출을 사용하여 다시 빈파일로 만들수 있다. 이것들 모두는 실제로 자주 발생하는 경우이 
다. 례를 들어 > filename 문자렬 이 들어 있는 벨명 령을 실행 하면 쉴은 빈 파일을 생성 하 
거 나 존재 하는 파일을 빈 파일로 만든다. 

4 등록부 

Ext 2 의 등록부는 파일명과 이에 대응하는 i 마디번호를 저장하는 자료블로크로 구성 
된 특별 한 파일로 실현한다. 자료블로크는 ext 2_ dir _ entry _2 형태 구조체로 이루어 져있 
다. 이 구조체의 마당은 표 2-26 에 있다. 이 구조체의 길이는 가변적이다. 마지막 
name 마당이 최대 EXT 2_ NAME _ LEN 개 문자(보통 255) 로 이루어진 길이가 가변적인 
배렬이기때문이다. 효률성을 위해 등록부입구점의 길이는 언제나 4의 배수며 필요하다 
면 파일명끝에 빈문자(《\0> )가 들어간다. namejen 마당에 실제 파일명의 길이를 저 
장한다. 

표 2-26. Ext 2 등록부항목의 마당 
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형 

마 당 

설 명 

_u32 

_ ul6 

_u8 

_u8 

char [EXT2_NAM 
E_LEN] 

inode 

rec_len 

name_len 

file_type 

name 

i 마디 번호 

등록부입구점의 길이 
파일이름길이 
파일 류형 
파일이름 


flle_type 마당에는 파일류형을 나타내는 값을 저장한다. rec_len 마당은 등록부의 
유효한 다음 항목을 가리키는 지적자로 해석할수 있다. 유효한 다음 항목의 시작주소를 
얻으러면 등록부항목에 이 편위값을 더하면 된다. 등록부항목을 삭제하려면 등록부항목 
의 i 마디마당을 0 으로 설정하고 유효한 이전 항목의 rec_len 마당을 적절히 증가시키면 
된다. rec_len 마당을 자세히 보면 usr 의 rec_len 마당이 12+16 (usr 와 oldfile 입구점 
의 길 이)으로 설정되 여있으므로 oldfile 항목이 삭제되 였다는 사실을 알수 있다. 

4 기호련결 

앞에서 설명한것처럼 기호련결의 경로명이 60 자이하면 4B 정수 15 개로 구성된 배렬 
인 i 마디의 i_block 마당에 기호련결을 저장하며 자료블로크를 사용하지 않는다. 

경 로명 이 60 자이 상이 면 자료블로크하나를 사용한다. 

泰 장치파일, 관, 소케트 

이 런 파일에는 자료블로크가 필요없다. 모든 정보는 i 마디 에 저 장된다. 
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그림 2-6. Ext 2 등록부의 례 
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3. Ext 2 기억기자료구조 

효률성 을 높이 기 위 해 파일 체 계 를 탑재하면 Ext 2 구획 의 디 스크자료구조에 저 장된 
정 보중 대 부분을 RAM 에 복사하여 핵 심 부가 디 스크읽 기연산을 여 러 번 수행하지 않도록 
한다. 자료구조가 얼마나 자주 바뀌는지 대략적인 개념을 잡기 위해 몇가지 기본적인 연 
산을 살펴본다. 

> 새로운 파일을 생성하면 Ext 2 초블로크의 s _ free _ inodes _ count 마당, 그리고 
해 당한 그룹서술자의 bg _ free _ inodes _ count 마당값을 감소시켜 야 한다. 

> 핵심부가 기존의 파일에 자료를 추가하여 이 파일에 할당된 자료블로크수가 증 

가하면 Ext 2 초블로크의 s _ free _ blocks_count 마당과 그롭서술자의 

bg _ free _ blocks _ count 마당값이 바뀌 여 야 한다. 

> 기존의 파일의 일부를 다시 기록하는 경우에도 Ext 2 초블로크의 s _ write 마당을 
갱신해야 한다. 

모든 Ext 2 디스크자료구조를 Ext 2 구획의 블로크에 저장하기때문에 핵심부는 이런 
자료구조를 최 신상태 로 유지 하려 고 완충기캐쉬 와 폐지캐쉬 를 사용한다. 

표 2-27 은 Ext 2 파일체계와 파일에 관련한 각 자료류형에 대해 디스크에서 자료를 
표현하기 위해 사용하는 자료구조, 기억기에서 핵심부가 사용하는 자료구조 그리고 얼마 
나 많은 캐 쉬억 을 사용하는지 결정 하기 위한 간단한 규칙 을 나타낸다. 자주 바뀌 는 자료 
는 언제나 고속기억된다. 즉 자료는 항상 완충기캐쉬나 페지캐쉬에 저장되고 대응하는 
Ext 2 구획 이 탑재해제될 때까지 완충기캐쉬 에 저장되 여있다. 이를 위해 핵심부는 완충기 
의 사용계 수기 를 언제 나 0보다 크게 유지한다. 

표 2-27 Ex 1;2 자&구空2ᅡ VFS 자료구조사이비교 


류형 

디 스크자료구조 

기억기자료구조 

케쉬 방식 

초블로크 

ext 2 super block 

ext 2 sb info 

항상 캐쉬됨 

그룹 서술자 

ext 2 group desc 

ext 2 group desc 

항상 캐쉬됨 

블로크비트배치표 

블로크에 저장된 비트 

배렬 

완충기에 저장된 비트배렬 

고정된 크기 

i 마디 비 트배 치 표 

블로크에 저장된 비트 

배렬 

완충기에 저장된비트배렬 

고정된 크기 

i 마디 

ext 2 inode 

ext 2 inode info 

동적 

자료 블로크 

지정되지 않음 

완충기 폐지 

동적 

여유 i 마디 

ext 2 inode 

없음 

캐쉬되지 않음 

여유 블로크 

지정되지 않음 

없음 

캐쉬되지 않음 
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캐 쉬 된적 이 없는 자료는 의 미있는 정 보를 담고있지 않으므로 어 떤 캐 쉬 에 도 저 장되 
지 않는다. 이 두 극단사이 에 두가지 다른 방식 즉 고정된 제한방식과 동적방식 이 있다. 
고정된 제한 (fixed limit) 방식에서는 지정된 수의 자료구조만 완충기캐쉬에 저장할수 있 
다. 한계 를 넘 으면 오래 된 자료구조는 디 스크로 넘 어 간다. 동적 (dynamic) 방식 에 서 자 
료는 대 응하는 객체 (I 마디 또는 블로크)를 사용하는 동안에 만 완충기캐쉬 에 있게 된다. 
파일을 닫거나 자료블로크를 삭제하면 shrink_caches() 함수가 대응하는 자료를 캐쉬에 
서 제거한다. 

1) Ext 2_ sb_info 와 ext 2_ inode_info 구조체 

Ext2 파일체 계 를 탑재하면 파일체 계 고유의 표를 포함하고있는 VFS 초블로크의 u 마 
당을 ext2_sb_info 구조체 형태로 적재 하여 핵 심부가 전체적 인 파일체 계와 관련한 정 보를 
찾을수 있게 한다. 이 구조체는 다음과 같은 정보를 포함한다. 

> 대 부분의 디 스크초블로크마당 

> 디스크초블로크를 포함하는 완충기의 완충기머리부를 가리키는 지적자 s_sbh 

> 디스크초블로크를 포함하는 완충기를 가리키는 지적자 s_es 

> 한 블로크안에 들어갈수 있는 그를서술자수 s_desc_per_block 

> 그룹서술자를 포함하는 완충기의 완충기머리부배럴을 가러키는 지적자 
s_group_desc (보통 항목 하나로 충분하다) 

> 탑재상태，탑재항목 등과 관련한 기타 자료 

> 이와 류사하게 Ext2 파일과 관련한 i 마디객체를 초기화하면 ext2_inode_info 
구조체형태로 u 마당을 적재한다. 이 구조체는 다음과 같은 정보를 포함한다. 

> 디스크의 i 마디구조체에 있는 대부분의 마당중에서 일반 VFS i 마디객체에 저장 
되지 않는 마당 

> 단편크기와 단편번호(아직 사용되지 않음) 

> i 마디 가 속한 블로크그름의 색 인 i_block_group 

> 자료블로크를 미리 할당하기 위해 사용하는 i_allock_block 와 
i_allock_count 마당 

> 디스크 i 마디를 동시에 갱신해 야 하겠는가를 나타내는 기발인 i_osync 마당 

2) 비트배치표패쉬 

핵 심 부는 Ext2 파일체 계 를 탑재 하면 Ext2 디 스크초블로크를 위한 완충기 를 할당하 
고 초블로크의 내용을 디스크에서 읽는다. 이 완충기는 Ext2 파일체계를 탑재해계한 경 
우에만 해제된다. 핵심부가 Ext2 초블로크의 마당내용을 변경해야 하는 경우 완충기의 
적절한 위 치에 새로운 값을 기록하고 완충기를 불결한것으로 표시한다. 

그러나 모든 Ext2 디스크자료구조에 대해서 이 접근방법을 사용할수는 없다. 최근 몇 
년동안 디스크용량이 10배 이상 증가함에 따라 i 마디와 자료블로크비트배 치표의 크기도 10 
배 이상 증가하였다. 따라서 동시에 모든 비트배 치표를 RAM 에 유지하는 일이 힘들어졌다. 
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례를 들어 크기가 lkB 인 블로크를 사용하는 4 GB 디스크를 생각해보자. 각 비트배치 
표는 한 블로크의 모든 비트를 채우므로 각 비트배치표는 블로크 8192개의 상태 즉 
8 MB 디스크공간을 나타낼수 있다. 따라서 필요한 블로크그롭의 수는 

4096 MB /8 MB =512 이다. 각 블로크그롭은 i 마디비트배치표와 자료블로크비 트배 치 표를 
요구하므로 비트배 치표 1024개를 모두 기 억기 에 저장하려면 1 MB RAM 이 필요하다. 

Ext 2 서술자의 기억기요구를 제한하기 위해 모든 탑재된 Ext 2 파일체계에 대해 

EXT 2_ MAX _ GROUP _ LOADED (보통 8) 크기인 캐쉬 두개를 사용하는 방법을 채택하 
였 다. 한 캐 쉬 에 는 가장 최 근에 접 근한 i 마디비 트배 치 표를 저 장하고 다른 캐 쉬 에 는 가장 
최근에 접근한 블로크비트배치표를 저장한다. 캐쉬에 포함된 비트배치표를 포함하는 완 
충기는 사용계수기값이 0보다 크기때문에 shrink _ mmap () 가 해제하지 않는다. 반대로 
비트배치표캐쉬에 없는 비트배치표를 포함하는 완충기는 사용계수기값이 0이기때문에 
여유기억기가 모자라면 해제된다. 매 캐쉬는 요소를 EXT 2_ MAX _ GROUP_LOADED 
개 포함하는 배렬 두개를 사용하여 실현한다. 한 배렬에는 현재 캐쉬에 비트배치표가 있 
는 블로크그룹의 색인값을 저장하고 다른 배렬에는 비트배치표를 참조하는 완충기머리부 
를 가리 키 는 지 적자를 저 장한다. 

ext 2_ sb _ info 구조체 는 i 마디 비 트배 치 표캐 쉬 와 관련한 배 렬 을 저 장한다. 

블로크그룹의 색인값은 s _ inode _ bitmap 마당에, 완충기 머리 부에 대한 지적자는 
s _ inode _ bitaiap _ number 마당에 있 다. s _ inode _ bitmap 와 s _ block _ nmnber 마당에는 블 
로크비 트배 치표캐쉬 에 대 응하는 배 럴을 저 장한다. 

load _ inode _ bitmap 0 함수는 지정된 블로크그룹의 i 마디 비 트배 치 표를 적재 하고 비 
트배 치 표가 들어 있는 캐 쉬 위 치 를 반환한다. 

비트배치표가 비트배치표캐쉬에 없으면 load _ inode _ bitmap () 는 

read _ inode _ bitmap 0를 호출한다. 이 함수는 그룹서술자의 bg _ indoe _ bitmap 마당에서 
비트배치표를 포함하는 블로크수를 얻은 다음 breadO 를 호출하여 새로운 완충기를 할 
당한다. 완충기캐쉬에 아직 없다면 디스크에서 블로크를 읽는다. 

Ext 2 구획의 블로크그를수가 EXT 2_ MAX _ GROUP _ LOADED 보다 작거나 갈으면 
비트배 치표를 삽입할 캐쉬배 렬위 치색 인값은 항상 load _ inode _ bitmap () 함수에 변수로 
넘긴 블로크그롭색인값과 일치한다. 반면에 캐쉬공간보다 더 많은 블로크그롭이 있다면 
LRU (Least Recently Used ) 기법을 사용해서 캐쉬에서 비트배치표를 제거하고 요청한 
비트배치표를 첫번째 캐쉬위치에 넣는다. 그림 2-7 은 블로크그롭 5에 있는 비트배치표 
를 참조하는 3가지 경우를 보여준다. 요청한 비 트배 치 표가 이 미 캐쉬 에 있는 경우 캐쉬 
에 없지만 여유공간이 있는 경우 그리고 캐쉬에도 없고 여유공간도 없는 경우이다. 
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( a ) 비트배치표가 이미 캐쉬에 있는 경우 
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犯)비트배치표를 캐쉬에 추가한 경우 
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(C) 비 트배 치 표를 캐 쉬 에 추가하고 마지 막비 트배 치 표를 버 린 경 우 
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그림 2-7. 캐쉬에 비트배치표 추가하기 

load _ block _ bitmap () 와 read _ block _ bitmap () 함수는 load _ inode_bitmap () 와 read 
_ inode _ bitmap () 함수와 아주 류사하지만 Ext 2 구획의 블로크비트배치표캐쉬를 참조한다. 

그림 2-8 은 탑재된 Ext 2 파일체계의 기억기자료구조를 나타낸다. 실례에는 디스크 
의 세 블로크안에 서술자를 저장한 세 블로크그룹이 있다. 따라서 ext 2_ sb _ info 의 
s _ group _ desc 마당은 완충기머리부의 세개의 배럴을 가리킨다. 여기서는 색인값이 2인 
i 마디비트배치표하나와 색인값이 4인 블로크비트배치표 하나만 볼수 있다. 핵심부는 비트 
배치표캐 쉬에 비트배치표 2* EXT 2_ MAX _ GROUP _ LOADED 개를 저아할수 있으며 더 많은 
비트배치표를 완충기캐쉬에 저장할수 있다. 
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그림 2-8. Ext 2 기억기자료구조 


4. Ext 2 파일체계생성 

디스크에 파일체계를 생성하는 작업은 크게 두 단계로 이루어진다. 첫번째 단계는 
디 스크를 형 식 화하는것 으로서 디 스크장치 구동프로그람이 디 스크에 블로크를 읽 고 쓸수 
있게 한다. 최신 하드디스크는 공장에서 형식화해서 나오므로 다시 형식화할 필요가 없 
다. 유연성자기원판은 Linux 에서 / usr / bin/superformat 유털리터프로그람을 사용하 
여 형식화할수 있다. 두번째 단계는 파일체계를 생성하는것으로서 이 절의 앞부분에서 
설명한 구조체를 설정한다. 

/ sbin / mke 2 fs 유털 리 터 프로그람을 사용하여 Ext 2 파일체 계 를 생 성 할수 있 다. 이 
프로그람은 다음과 같은 기본선택항목들을 가정한다. 사용자는 선택항목을 변경하기 위 
해 명령에 기발을 사용할수 있다. 

> 블로크크기 : 1024 B 

> 단편크기 : 블로크크기 (블로크단편화는 실현되지 않았다.) 
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> 할당된 i 마디 개 수 : 4096 B 당 i 마디 한개 

> 예약된 블로크의 비률 : 5% 

이 프로그람은 다음과 갈은 작업 을 수행한다. 

① 초블로크와 그롭서 술자를 초기 화한다. 

② 구획 에 손상된 블로크가 있는지 검사한다. (선택 항목) 손상된 블로크가 있다면 손 
상된 블로크목록을 만든다. 

③ 매 블로크그룹에 대해 초블로크, 그를서술자, i 마디 표, 비트배치표 두개를 저장 
하는데 필요한 디스크블로크를 예 약한다. 

© 매 블로크그롭의 i 마디 비 트배 치 표와 자료블로크비 트배 치 표를 0으로 초기 화한다. 

⑤ 매 블로크그롭의 i 마디표를 초기화한다. 

⑥ 뿌리등록부 /를 생성 한다. 

⑦ Lost + found 등록부를 생성한다. e 2 fsck 는 없어지거나 손상된 블로크를 련결하기 
위해 이 등록부를 사용한다. 

⑧ 앞에서 만든 두 등록부가 속한 블로크그룹의 i 마디비트배치표와 자료블로크비트 
배치표를 갱신한다. 

種) 손상된 블로크가 없으면 lost + fount 등록부로 옳긴다. 

mke 2 fs 가 기본선택항목으로 1.4 MB 유연성디스크를 Ext 2 파일체계로 어떻게 초기화 
하는지 살펴보자. 

탑재되면 이 유연성자기원판은 VFS 에서 볼 때 길이가 1024 B 인 블로크 1390개로 
구성된 볼롭 하나로 보인다. 디스크내용을 검사하기 위해 다음 Unix 명령을 사용하여 
유연성 자기 원판의 내 용의 16진수쏟기 ( dump ) 가 들어있는 파일 dump _ hex 를 / taip 등록 
부에 생 성할수 있 다. 

$ dd if =/ dev / fd 0 bs=lk count =1440 | od txl Ax > / tmp / dump_hex 

이 파일을 살펴보면 디스크용량의 제한때문에 그룹서술자 하나로 충분하다는 사실을 
알수 있다. 또한 예 약된 블로크개수가 72 (1440 의 5%0)이라는 사실과 기본선택항목에 따 
라 i 마디 표에 는 4096 B 마다 i 마디 하나씩 을 포함해 야 하므로 블로크45개 에 i 마디 360개 가 
저 장되 여있 다는 사실 을 알수 있 다. 

표 2-28 에 기본선택항목을 사용했을 때 유연성자기원판에 Ext 2 파일체계를 어떻 
게 만드는지 요약하였다. 


표 2-28 

유연성자기원판에 대 S Rxt 2« S = lil » 

블로크 

내 용 

0 

기동블로크 

1 

초블로크 

2 

블로크그롭서술자 하나를 포함한 블로크 
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3 

자료블로크 비 트배 치 표 

4 

i 마디 비 트배 치 표 

5-49 

i 마디표 : 10번까지 예 약됨，11번은 lost + found , 12-360 


은 여유블로크 

50 

뿌리 등록부 (. lost +found 포함) 

51 

lost+found 등록부 (.과 ..을 포함) 

52-62 

lost+found 등록부에 미 리 할당된 예 약블로크 여유블로크 

63-1439 

여유블로크 


5. Ext 2 메쏘드 

대 부분의 VFS 메 쏘드에 는 대 응하는 Ext 2 실현 이 있 다. 디 스크와 기 억 기자료구조를 
완전히 리해하면 이것을 실현하고있는 Ext 2 함수코드로 따라 들어갈수 있다. 

1) Ext 2 초블로크연산 

대부분의 VFS 초블로크연산 즉 readjnode , writejnode , putjnode , deletejn 
ode , put _ super , write _ super , statfs , remount_fs 등은 Ext 2 에서 독자적으로 실 
현된다. 초블로크메쏘드의 주소는 지적자의 배렬인 ext 2_ sops 에 저장된다. 

2) Ext 2 i 마디연산 

어 떤 VFS 색 인마디연산은 Ext 2 에서 독자적 으로 실현되 는데 그 실현은 i 마디 가 참 
조하는 파일류형 에 따라 다르다. 

i 마디가 정규파일을 나타내는 경우 truncate 연산만 ext 2_ truncate () 함수로 실현 
하고 ext 2_ file _ inode _ operations 표에 있는 다른 모든 i 마디 연산은 NULL 지적 자를 가 
진다. 대응하는 Ext 2 메 쏘드가 정의되 여있지 않은 경우 ( NULL 지적 자) VFS 는 자신의 
범용함수를 사용한다. 

i 마디가 등록부를 나타내는 경우 ext 2_ dir _ inode _ operations 표에 있는 대부분의 i 
마디 연산은 독자적 인 Ext 2 함수로 실현한다. (표 2-29 참고) 


표 2-29 . _ 등록부5[일에 대한 Ex 1:2 색인 DFC [연산 


VFS i 마디 연산 

Ext 2 등록부 i 마디 메쏘드 

create 

ext 2_ create () 

lookup 

ext 2_ lookup () 

link 

ext 2_ link () 

unlink 

ext 2_ symlinkO 

mkdir 

ext 2_ mkdir () 

rmdir 

ext 2_ rmdir () 

mknod 

ext 2_ mknod () 

rename 

ext 2_ rename () 


i 마디가 자체에 저장할수 있는 기호련결을 나타내는 경우(짧은 기호련결)， 
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readlink 와 followjink 메쏘드를 제외한 모든 i 마디메쏘드는 NULL 이고 두 메쏘드는 
각각 ext2_readlink() 와 ext2_follow_link() 함수가 실현한다. 이 메쏘드들의 주소는 
ext2_fast_symlink_inode_opera 切 ons 표에 저장된다. i 마디가 자료블로크에 저장되는 
긴 기호련결을 나타내는 경우 readlink 와 follow_link 메쏘드는 범용 page_readlink() 
와 page_follow_link() 함수로 실현되며 이것들의 주소는 page_sym 1 ink_inode_ 
operations 표에 저장된다. 

i 마디가 문자장치파일，블로크장치파일，이름있는 관을 나타내는 경우 i 마디연산은 
파일체계에 의존하지 않는다. 이것들은 각각 chrdev_inode_operations, 
blkdev_inode_operations , fifo_inode_opera 吐 ons 표에 저장된다. 

3) Ext2 파일연산 

Ext2 파일체계의 독자적인 파일연산은 표 9에 있다. 표에서 볼수 있는것처럼 VFS 
메쏘드중에는 여러 파일체계에 공통적인 범용함수로 실현하는것도 있다. 이 메쏘드들의 
주소는 ext2_flle_operations 표에 저장된다. 


표 2-30 _ Ex1:2 立벨연산 


VFS 파일 연산 

Ext2 메 쏘드 

11 seek 

generic. file_llseek () 

read 

generic. file_ read() 

write 

generic. file_write 0 

ioctl 

ext2_ioctl () 

mmap 

generic. file_ mmapO 

open 

generic. file_ openO 

release 

ext2_release_file () 

fsync 

ext2_sync_file() 


Ext2 의 read 와 write 메쏘드는 각각 generic_file_read () 와 generic_file_ 
writeO 함수로 실현하는데 이 함수는 2절에 있는《파일에서 읽기》와《파일에 쓰기》 
에서 설명하였다. 

6. Ext2 디스크공간관리 

파일을 디스크에 실제로 저장하는 방식은 프로그람작성자가 파일을 보는 관점과 다 
른 면이 있다. 블로크는 디스크에 흘어져있을수 있고(비록 파일체계는 접근시간을 향상 
하기 위해 블로크를 련속적인 상태로 유지하려고 하지만) 프로그람이 (lseekO 체계호출 
을 사용하여) 파일에 구멍을 만들수 있으므로 파일이 프로그람작성자에게 실제보다 더 
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크게 보일수 있다. 

여기서는 Ext 2 파일체계가 디스크공간을 관리하는 방법 즉 i 마디와 자료블로크를 
할당하고 해 제 하는 방법 을 설 명한다. 다음 두가지 문제 가 특히 중요하다. 

• 공간관리에서 가능하면 반드시 파일단편화 (file fragmenta 仕 on ) 를 피해야 한 
다. 파일단편화는 련속하지 않는 디스크블로크에 있는 여러 작은 스렘에 파일의 물 
리적저장공간이 흘어져 저 장되는것을 의 미한다. 파일단편화는 읽 기연산중에 디스크 
머 리부위 치를 자주 바꿔 야 하므로 파일에 대한 순차적 읽기 연산의 평균시간을 증가시 
킨 다. 

• 공간관리는 반드시 빨리 동작해야 한다. 핵심부는 과일편위에서 여기에 대응 
하는 Ext 2 구획의 론리블로크번호를 아주 빨리 얻을수 있어야 한다. 이렇게 하려면 
핵심부는 디스크에 저장된 주소표에 접근하는 회수를 최대한 제한해야 한다. 이런 
접 근은 평 균파일 접 근시 간을 상당히 늘이 기 때 문이 다. 

1) i 마디생성 

Ext 2_ new _ inode () 함수는 Ext 2 디스크 i 마디를 생성하고 대응하는 i 마디객체의 주 
소(실패한 경우 NULL ) 를 반환한다. 이 함수는 새로운 i 마디가 삽입될 등록부를 가리키 
는 i 마디객체의 주소인 dir 와 생성할 i 마디류형을 나타내는 mode 를 변수로 사용한다. 
mode 는 i 마디가 할당될 때까지 현재 프로쎄스를 연기 하도록 요청 하는 
MS_SYNCHRONOUS 기 발을 포함한다. 이 함수는 다음과 같은 작업 을 실 행 한다. 

① new _ inode () 를 호출하여 새로운 i 마디객체를 할당하고 이 객체의 i_sb 마당을 
dir -> i_sb 에 저장된 초블로크주소로 설정한다. 

② 부모초블로크에 있는 s_lock 신호기에 대해 downO 을 호출한다. 신호기가 이미 
사용중이 면 핵 심 부는 현재 프로쎄 스를 연기 한다. 

③ 새로운 i 마디가 등록부이면 다 채워지지 않은 블로크그롭에 등록부가 골고루 홀 
어지도록 저장하려고 시도한다. 특히 평균보다 많은 여유 i 마디가 있는 모든 블로크그를 
중에서 가장 많은 여유블로크가 있는 블로크그룹에 새로운 등록부를 할당한다.(평균은 
전체 여유 i 마디수를 블로크그를수로 나눈값이 다.) 

④ 새로운 i 마디가 등록부가 아니면 여유 i 마디가 있는 블로크그를에 이 i 마디를 할당 
한다. 이 함수는 부모등록부가 들어있는 그롭에서 시 작하여 점 점 더 멀 이 지는 방향으로 
이동한다. 자세히 설명하면 다음과 갈다. 

부모등록부 dir 가 들어있는 블로크그룹에서 시작하여 간단한 로그탐색을 실행 
한다. 알고리듬은 블로크그룹 log ( n ) 개를 람색한다. 여기서 n 은 전체블로크그룹의 개 
수다. 알고리듬은 활용할수 있는 블로크그룹을 발견할 때까지 다음과 같이 건너된다. 시 
작하는 블로크그롭번호를 i 라 하면 알고리듬은 블로크그롭 i mod ( n ), i +1 mod ( n ), 
i +1+2 mod ( n ), i +1+2+4 mod ( n ), …을 탐색 한다. 

로그탐색에서 여유 i 마디가 있는 블로크그룹을 찾지 못하면 함수는 부모등록부 
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가 들어 있는 블로크그롭부터 시 작해서 모든 블로크그룹을 차례 로 람색 한다. 

⑤ load _ inode _ bitmap () 를 호출하여 선택 한 블로크그름의 i 마디 비트배 치 표를 얻 고 
그 안에서 맨 처음 NULL 비트를 찾아서 첫번째 여유디스크 i 마디의 번호를 얻는다. 

⑥ 디스크 i 마디를 할당한다. i 마디비트배 치표에서 i 마디에 대응하는 비트를 1로 설정 
하고 비트배치표를 포함하는 완충기를 불결한것으로 표시한다. 그리고 파일체계를 탑재 
할 때 MS _ SYNCHRONOUS 기 발을 지 정 하였 다면 ll _ rw _ blo 沈 0 를 호출하고 쓰기 연산 
이 완료될 때까지 기다린다. 

@ 그룹서술자의 bg _ free _ inodes _ count 마당을 감소시 킨다. 새 로운 i 마디가 등록부 
이면 bg _ used _ dirs _ count 를 증가시킨다. 그룹서술자를 포함하는 완충기를 불결한것으 
로 표시한다. 

⑧ 디스크초블로크의 s _ free _ inodes _ count 마당을 감소시키고 이 초블로크를 포함 
하는 완충기를 불결한것으로 표시한다. VFS 의 초블로크객체의 s _ dirs 마당을 1로 설정 
한다. 

⑨ i 마디객체의 마당을 초기화한다. 특히 i 마디번호 i _ ino 를 설정하고 xtime . rv_sec 
값을 i _ atime , i _ mtime , i_c 吐 me 에 복사한다. 그리고 ext 2 _inodeJnfo 구조체의 
i _ block _ group 마당을 블로크그룹 색인값으로 채운다. 이 마당의 의미는 표 3를 참고하 
면 된다. 

⑩ 새로운 i 마디객체를 하쉬표 inodejiashtable 에 삽입한다. 그러고 

mark _ inode _ dirty () 를 호출하여 i 마디객체를 초블로크의 불결한 i 마디목록으로 옮긴다. 

⑪ 부모초블로크에 있는 s _ lock 신호기에 대해 up () 을 호출한다. 

⑫ 새로운 i 마디객체의 주소를 반환한다. 


2) i 마디제거 

ext 2_ free _ inode () 함수는 변수로 주소를 넘긴 i 마디객체가 가리키는 디스크 i 마디를 
지운다. 핵심부는 이 함수를 호출하기 전에 내부자료구조와 파일자체의 자료를 정리하는 
연산을 수행해야 한다. 또한 i 마디하쉬표에서 i 마디객체를 지운 후 혹은 자신의 등록부 
에서 i 마디를 가리키던 마지막 하드련결을 삭제한 다음 그리고 파일의 모든 자료블로크 
를 제거하기 위해 파일의 길이를 0으로 만든 다음에는 반드시 이 함수를 호출해야 한다. 

이 함수는 다음 작업을 실행한다. 

① 부모초블로크에 있는 s _ lock 신호기에 대해 downO 을 호출하여 초블로크객체에 
대 한 배 타적 인 접 근권한을 얻 는다. 

② clear _ inode () 를 호출하여 다음 연산을 수행한다. 

■1. invalidate _ inode_buffers 0 를 호출하여 i 마디에 속한 불결한 완충기들을 i 마 
디의 i _ dirty _ buffers 와 i _ dirty _ data_buffers 목록에서 제거 한다. 

i 마디의 I _ LOCK 기발이 설정되여있으면 i 마디의 완충기중에 입출력자료전송에 관 
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련한것 이 있는것 이 다. 함수는 입 출력 자료전송이 완료될 때 까지 현재 프로쎄 스를 연기 한다. 

I 그. 초블로크객체의 clearjnode 메쏘드가 정의되여 있으면 이 메쏘드를 호출한다. 
Ext 2 파일체계는 이 메쏘드를 정의하고있지 않다. 

s . i 마디의 상태를 I_CLEAR 로 설정한다. (i 마디객체의 내용은 이제 의미 가 없다. ) 

③ i 마디번호와 각 블로크그룹의 i 마디수로부터 디스크 i 마디가 있는 블로크그룹의 색 
인값을 계산한다. 

④ i 마디 비트배 치 표를 얻 기 위 해 load _ inode_bitmap () 를 호출한다. 

⑤ 그룹서술자의 bg _ free _ inodes_count 마당을 증가시 킨다. 삭제된 i 마디가 등록부 
이 면 bg _ used _ dirs_count 마당을 감소시 킨다. 그룹서 술자가 들어있는 완충기 를 불결 한 
것으로 표시한다. 

透) 디 스크초블로크의 s _ free _ inodes_count 마당을 증가시 키 고 초블로크가 들어있는 
완충기를 불결한것으로 표시한다. 초블로크객체의 s_dirs 마당을 1로 설정한다. 

資) i 마디 비 트배 치 표에 서 디 스크 i 마디 에 대 응하는 비 트를 지 우고 비 트배 치 표가 들어 있 
는 완충기를 불결한것으로 표시한다. 그리고 파일체계를 탑재할 때 
MS_SYNCHRONOUS 기발을 지정 하였다면 ll _ rw _ block () 를 호출하고 비트배치표완충 
기에 대한 쓰기연산이 끝날 때까지 기다린다. 

⑧ 부모초블로크객체 에 들어있는 s_lock 신호기 에 대 해 up () 을 호출한다. 

3) 자료블로크의 주소지정 

비 여있지 않은 정 규파일은 여 러 자료블로크그룹으로 이 루어 져 있다. 이 블로크는 파 
일내의 상대적 인 위 치 나(파일블로크번호) 디스크구획내의 위 치(론리 블로크번호)를 사용 
하여 참조할수 있다. 파일내의 상대적위치인 편위 f 로부터 여기에 대응하는 자료블로크 
의 론리블로크번호를 엄는 과정은 두 단계로 이루어진다. 

• 편위 f 로부터 파일블로크번호 즉 편위군에 있는 문자를 포함하는 블로크의 색인 

값을 얻는다. 

• 파일블로크번호를 여기에 대응하는 론리블로크번호로 변환한다. 

Unix 파일은 조종문자를 포함하지 않으므로 파일의 f 번째 문자를 포함하는 파일블로 
크번호를 얻는 일은 아주 쉽다. f 를 파일체계의 블로크크기로 나눈 결과로부터 이보다 
작은 가장 가까운 정수를 취한다. 

례를 들어 블로크크기가 4 kB 라고 가정하자. f 가 4096보다 작으면 문자는 파일의 
첫번째 자료블로크에 있을것이고 이 블로크의 파일블로크 번호는 0이다. 군가 4096보다 
크거 나 같고 8192보다 작으면 문자는 파일블로크번호 1인 자료블로크에 포함되 여있으며 
이런 식으로 계속된다. 

파일 블로크번호를 구하는것 은 아주 쉽다. 그렇 지 만 파일블로크번호를 이 에 대 응하는 
론리블로크번호로 변환하는 일은 말처럼 그리 쉽지 않다. 디스크에서 Ext 2 파일의 자료 
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블로크가 반드시 련속되지는 않기때문이 다. 

따라서 Ext 2 파일체계는 각 파일 블로크번호와 이에 대응하는 론리블로크번호사이의 
관계를 디스크에 저장하는 방법을 제공해야 한다. 이 배치는 AT & T 의 초기 Unix 판본까 
지 거 슬러 올라가는데 i 마디 내 부에 서 부분적 으로 실 현한다. 또한 큰 파일 을 처 리하는데 
사용하는 i 마디 확장인 여 분의 지 적 자를 포함하는 특수자료블로크와도 관련 있 다. 

디스크 i 마디의 i_block 마당은 론리블로크번호를 담고있는 구성요소 

EXT 2_ N _ BLOCKS 개의 배럴이다. 여기서는 EXT 2_ N _ BLOCKS 의 기본값이 15라고 
가정한다. 배럴은 그림 2-9 에서 설명한 큰 자료구조의 처음 부분을 나타낸다. 그림에서 
보는것 처 럼 배 렬의 요소 15개는 4가지 류형 으로 되 여있다. 


i_block 



0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 


2-9. 파일의 자료 블로크 주소를 얻는데 사용하는 자료구조 
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> 처음 12개 요소는 파일의 처음 12개 블로크, 즉 파일블로크번호 0에서 11까지 
의 블로크에 대응하는 론리블로크번호를 나타낸다. 

> 12번요소는 론리 블로크번호의 2차배 럴을 나타내 는 블로크의 론리 블로크번호를 
포함한다. 즉 12에서 b /4+ ll 까지의 파일블로크번호에 대응한다. 여기서 b 는 
파일체계의 블로크크기 이다. (매 론리블로크번호는 4 B 를 차지하므로 식에서 4로 
나눈다. ) 따라서 핵 심 부는 이 요소에 서 블로크를 가리 키 는 지 적자를 살펴 보고 
해당 블로크에서 다시 파일내용을 저장하고있는 최종블로크에 대한 지적자를 얻 
을수 있다. 

> 13번요소는 론리 블로크번호의 2차배 럴 을 포함하는 블로크의 론리 블로크번 호를 
포함한다. 다음으로 이 2차배럴의 입구점은 3차배럴을 가리키고 3차배럴은 
b /4+12 에서 ( b /4) 2 +( b /4 )+ll 범위의 파일블로크번호에 대응하는 론리블로크 
번호를 포함한다. 

> 마지막으로 14번요소는 중간단계를 세번 거친다. 4차배럴은 ( b /4) 2 +( b /4)+12 
에서 ( b /4) 3 +( b /4) 2 +( b /4)+ ll 범위의 파일블로크번호에 대응하는 론리블로 
크번호를 저장한다. 

이 기구는 작은 파일에 더 유리 하다. 파일이 자료블로크를 12개 이상 요구하지 않으 
면 디스크에 두번만 접근하면 모든 자료를 얻을수 있다. 한번은 디스크 i 마디의 i_block 
배렬의 요소를 읽기 위해 다른 한번은 요청한 자료블로크를 읽기 위해서이다. 더 큰 파 
일일 경우 요청한 블로크를 읽으러면 련속적인 디스크접근 세번 또는 네번이 펼요할수도 
있다. 이것은 사실 최악의 경우에 대한 예측인데 실제로는 i 마디, 완충기，페지캐쉬 등 
이 디스크접근회 수를 상당히 감소시키기때 문이 다. 

파일체계의 블로크크기도 이 기구에 영 향을 준다. 블로크크기 가 크면 한 블로크안에 
론리블로크번호를 더 많이 저장할수 있다. 표 2-31 에서는 각 블로크크기와 주소지정방 
식에서 가능한 파일크기의 최대값을 보여준다. 례를 들어 블로크크기가 1024 B 이고 파일 
에 자료가 268 kB 있으면 직접배치를 통해 파일의 처음 12 kB 에 접근하고 나머지 13- 
268 kB 는 간접배치를 통하면 된다. 2 GB 보다 큰 파일을 32 bit 방식에서 사용하려면 파일 
을 열 때 CLLARGEFILE 항목을 지정 해 야 한다. Ext 2 파일체 계의 파일크기한계는 
2 TB -4096 B 이다. 


표 2-31. _ 1자료■로크주소지정데 대한 파일크기의 최대값 


블로크 크기 

직접 

1- 간접 

2 -간접 

1024 

12 kB 

268 kB 

64.26 MB 

2048 

24 kB 

1.02 MB 

513.02 MB 

4096 

48 kB 

4.04 MB 

4 GB 
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3) 파일구멍 

파일구멍 (file hole ) 은 정규파일의 일부분으로 null 문자만 포함하며 디스크에는 여 
기에 대응하여 저장된 자료블로크가 없는 부분이다. 파일구멍은 오래된 Unix 파일의 특 
징중 하나이다. 례를 들어 다음과 같은 Unix 명령은 앞부분에 구멍이 몇바이트 있는 파 
일을 생성한다. 

$ echo n “ X ” | dd of =/ tmp/hole bs =1024 seek =6 

이제 / tmp 八 lole 에는 문자가 6145 개 있지만 ( null 문자 6144개와 X 문자 하나)，파 
일은 디스크에서 자료블로크 하나만 차지한다. 

파일구멍 은 디 스크공간의 랑비 를 막으려 고 도입한것 이 다. 주로 자료기지응용프로그 
람에서 사용하며 파일에 대해 하쉬처 리를 하는 모든 응용프로그람에서 사용한다. 

Ext 2 의 파일구멍실현은 동적자료블로크할당을 기반으로 한다. 프로쎄스가 자료를 
기록해야 할 때에만 실제로 파일에 블로크를 할당한다. 매 i 마디의 i _ size 마당은 구멍을 
포함하여 프로그람에 보여주는 전체 파일크기를 정의하지만 i _ blocks 마당은 실제로 파 
일에 할당된 자료블로크수를 저장한다. (단위는 512 B 이다.) 

앞의 dd 명령실례에서 블로크크기가 4096인 Ext 2 구획에 / tmp/hole 파일을 생 
성하였다고 하자. 대응하는 디스크 i 마디의 i_size 마당에는 6145를 저장하고 
i _ blocks 마당에 는 8을 저 장한다. (각 4096 B 블로크는 512 B 블로크 8개 를 저 장할수 있 
다.) i _ block 배럴의 두번째 요소(파일블로크번호 1인 블로크에 대응하는)는 할당된 
블로크의 론리블로크번호를 저장하고 배렬내에 있는 나머지 요소는 모두 null 이 
다. (그림 2-10 참고) 


- 6194 - 

1-1 



1 

\0 

\0 

\0 


\0 

\0 


\0 

X 



그림 2-10. 앞부분에 구멍이 있는 파일 
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4) 자료블로크할당 

핵심부는 Ext 2 정규파일 자료를 저장하고있는 블로크를 찾아야 할 때 
ext 2_ get _ blk () 함수를 호출한다. 이 함수는 해당 블로크가 없으면 자동으로 블로크를 
할당한다. 이 함수는 핵 심부가 Ext 2 정규파일에 대 한 읽기 나 쓰기연산을 요청할 때 마다 
호출된 다. 

ext 2_ get _ block () 함수는《 자료블로크의 주소지정》에서 설명한 자료구조를 처리하 
며 필요하면 ext 2_ alloc _ block () 함수를 호출하여 Ext 2 구획에서 여유블로크를 찾는다. 

Ext 2 파일체계는 파일단편화를 줄이기 위해 파일에서 마지막으로 할당된 블로크근처 
에 새로운 블로크를 할당하려고 한다. 실패 하면 파일체 계는 파일의 i 마디가 포함된 블로 
크그롭안에서 새 로운 블로크를 탐색한다. 마지 막으로 다른 블로크그룹에서 여 유블로크를 
구한다. 

Ext 2 파일체계는 자료블로크를 미리 할당한다. 파일은 요청한 블로크뿐만 아니라 최 
대 8개까지 린접 한 블로크그룹을 얻 는다. ext 2_ inode _ info 구조체의 i _ prealloc_count 
마당은 미리 할당된 자료블로크중에서 아직 사용하지 않은 블로크수를 나타내며 
i _ prealloc _ block 마당은 다음에 사용할 블로크의 론리블로크번호를 나타낸다. 미리 할 
당된 블로크중에 사용하지 않은 블로크는 파일을 닫을 때 파일크기를 0으로 할 때 또는 
쓰기연산이 블로크를 미리 할당하도록 한 쓰기연산에 대해 련속하지 않으면 해제된다. 

ext 2_ allock _ block () 함수는 i 마디객체에 대한 지적자와 목적지 ( goal ) 를 변수로 받 
는다. 《목적지》는 새로운 블로크가 선택하는 위치를 나타내는 론리블로크번호이다. 
ext 2_ ge 比) lk () 함수는 다음과 같은 과정을 거 처 goal 변수를 설정한다. 

① 할당하려는 블로크와이전에 할당된 블로크의 파일블로크번호가 련속하면 goal 은 
이전 블로크의 론리블로크번호+1이다. 프로그람에서 보이는 련속된 블로크를 디스크에 
서도 련속하게 한다. 

② 첫번째규칙이 적합하지 않고 파일에 적어도 한 블로크를 할당했으면 목적지는 이 
것들 블로크의 론리블로크번호중 하나이 다. 더 정확하게는 블로크를 할당할 파일에 이미 
할당된 블로크의 론리 블로크번호이다. 

③ 앞의 규칙을 모두 적용할수 없으면 목적지는 파일의 i 마디를 포함하는 블로크그 
룹내 첫번째 블로크(여유블로크일 필요는 없음)의 론러블로크번호이다. 

ext 2_ alloc _ block () 함수는 목적지가 미리 할당된 블로크중 하나인지 검사한다. 그 
렇다면 대 응하는 블로크와 블로크의 론리 블로크번호를 반환한다. 그렇지 않으면 함수는 
미리 할당된 상태로 남아있는 모든 블로크를 해제하고 ext 2_ new _ block () 를 호출한다. 

이 함수는 다음과 같은 전략을 사용하여 Ext 2 구획 내의 여유블로크를 탐색한다. 

① ext 2_ alloc _ block () 에 전달하려고 선택한 블로크 ( goal ) 가 여유블로크이면 이것 
을 할당한다. 

② 목적지가 사용중이면 해당 블로크다음의 블로크 64개중에서 여유블로크가 있는 
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지 검사한다. 

③ 해당 블로크다음의 린접한 령역에서 여유블로크를 찾지 못했으면 goal 을 포함하 
는 블로크그를에서 시작하여 모든 블로크그를을 찾는다. 각 블로크그룹에 대해 함수는 
다음을 실행한다. 

n . 최소한 여유블로크 8개가 린접하는 그룹을 찾는다. 

!一. 이와 같은 블로크가 없으면 여유블로크 하나를 찾는다. 

여유블로크를 찾으면 탐색을 끝낸다. 완료하기 전에 ext 2_ new _ block () 함수는 찾은 
여유블로크와 린접한 여유블로크를 8개까지 미리 할당하려고 시도하고 디스크 i 마디의 
i _ prealloc _ block 와 i __ prealloc _ count 마당을 적절한 블로크위치와 블로크수로 설정한다. 

5) 자료블로크해제 

프로쎄 스가 파일 을 삭제하거 나 파일 길 이 를 0으로 만들면 이 파일의 모든 자료블로 
크를 반환해야 한다. 이 작업은 ext 2_ truncate () 로 처리하는데 파일 i 마디객체의 주소를 
변수로 받는다. 이 함수는 디스크 i 마디의 i _ block 배럴을 차례로 읽어서 모든 자료블로크 
를 찾고 간접참조에 사용된 모든 블로크를 찾는다. 그리고 매 그룹을 
ext 2_ free _ blocks () 를 호출하여 해제 한다. 

ext 2_ free _ blocks () 함수는 린접한 자료블로크 하나이상의 그룹을 해제한다. 
ext 2_ truncate () 에서 사용하는것외 에 이 함수는 미 리 할당된 파일블로크를 해제할 때 
호출된다. 이 함수의 변수는 다음과 갈다. 

inode 

파일을 나타내는 i 마디 객 체 주소 

block 

해제할 첫번째 블로크의 론리블로크번호 

count 

해제할 린접블로크수 

함수는 초블로크의 신호기 s _ lock 에 대해 down 0을 호출하여 파일체계의 초볼로 
크에 대한 배타적인 접근 권한을 얻은 다음 해제할 각 블로크에 대해 다음을 수행한다. 

① 해제할 블로크를 포함하는 블로크그룹의 블로크비트배치표를 얻는다. 

② 해제할 블로크에 대응하는 블로크비티배치표의 비트를 지우고 비트배치표를 포함 
하는 완충기를 불결한것으로 표시한다. 

③ 볼로크그룹서 술자의 bg _ free _ blocks _ count 마당을 증가시 키 고 대 응하는 완충기 
를 불결한것으로 표시한다. 

④ 디스크초블로크의 s _ free _ blocks _ count 마당을 증가시키고 대응하는 완충기를 
불결 한것 으로 표시 하며 초블로크객 체 의 s _ dirty 기 발을 설정 한다. 

⑤ MS _ SYNCHRONOUS 기 발을 설 정 하여 파일 체 계 를 탑재 했 으면 ll _ rw _ block () 
를 호출하고 비트배 치표의 완충기 에 대한 쓰기연산을 끝낼 때까지 기 다린다. 


158 


透資© @資變©^ 


체 2 장 . ut°jm 


이 함수는 마지막으로 up() 을 호출하여 초블로크의 s_lock 신호기를 해제한다. 

7. Ext 3 파일체계 

여기서는 Ext2 에서 발전한 파일체 계 인 Ext3 를 설명한다. 새 로운 파일체계는 다음 
두가지 개 념 을 기 반으로 설계 되 였 다. 

> 기록형파일체계를 제공한다. 

> 가능하면 최대로 이전 Ext2 파일체계와 호환성을 유지한다. 

Ext3 는 두 목표를 모두 잘 달성하고있다. 특히 Ext2 에 기반을 두고있어서 디스크 
에서의 자료구조는 기본적으로 Ext2 파일체계와 같다. 어떤 Ext3 파일체계를 탑재해제하 
고 Ext2 파일체 계를 다시 탑재할수 있다. 또 Ext2 과일체계 에 기록 (journal) 을 생성 하 
고 Ext3 파일 체 계 로 다시 탑재하는것 도 간단하다. 

Ext3 와 Ext2 사이 의 호환성 으로 하여 앞부분에서 설명한 대 부분의 내 용을 Ext3 에 
그대로 적용할수 있다. 따라서 여기에서는 Ext3 가 제공하는 새로운 기능, 즉 기록형기 
능을 중심 으로 설 명한다. 

1) 기록형파일체계 

전통적 인 Unix 파일체 계 (Ext2 를 포함)의 설계 단계의 결정 중에서 디스크용량이 증가 
함에 따라 바꾸어야 하는것들이 있게 되였다. 파일체계블로크에 대한 갱신이 디스크에 
흘리기되기 전에 동적기억기에 오래동안 남아있을수 있다. 전원이 나가거나 체계에 장애 
가 발생한 경우 파일체계의 일관성이 파괴된 상태가 될수 있다. 이 문제를 해결하기 위 
해 전동적인 Unix 파일체계를 탑재하기 전에 파일체계검사를 수행한다. 제대로 탑재해 
제되지 않았으면 어떤 프로그람이 실행되여 디스크에 있는 전체 파일체계의 자료구조를 
검사하고 수정 하는 시 간이 오래 걸리는 작업 을 수행한다. 

례를 들어 Ext2 파일체계의 상태는 디스크초블로크의 s_mount_state 마당에 저 장된 
다. 기동스크립 트는 e2fsck 유릴 리리 프로그람을 호출하여 이 마당에 저 장된 값을 검 사한 
다. 이 값이 EXT2_VALID_FS 가 아니면 파일체계가 제대로 탑재해제되지 않은것이고 
e2fsck 는 파일체계의 전체 디스크자료구조에 대한 검사를 시작한다. 

물론 파일체계의 일관성을 검사하기 위 해 필요한 시간은 주로 검사할 파일과 등록부 
의 수에 따라 다시 말해서 디스크크기에 따라 결정된다. 수백 GB 에 이르는 파일체계인 
경우에는 한번 검사하는데 몇시간이 걸러수 있다. 그러고 이런 몇시간이라는 정지된 시 
간 (down time) 은 상용환경 이 나 고가용성 (high availability) 봉사기 에 서 허 용할수 없 
는 수준이 다. 

기 록형파일체 계 의 목표는 최 근의 디 스크쓰기연산만을 가지 고있는 특별 한 디 스크령 역 
인 기록 (journal) 을 리용함으로써 오랜 시간이 필요한 전체 파일체계에 대한 일관성검 
사를 피해보자는것이다. 보통 체계에 장애가 발생했을 때 기록형파일체계를 다시 탑재하 
는데 걸리는 시간은 수 s 정도이다. 
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2) Ext 3 기록형파일체계 

Ext 3 기 록형 의 사상은 파일 체 계 에 대 한 모든 고수준변경 을 두 단계 를 통해 실 행하는 
것이다. 첫번째 단계에서 디스크에 기록할 블로크의 복사본을 기록에 저장한다. 그리고 
기록에 대 한 입 출력자료전송이 완료되면(자료가 기록에 위 임되면) 블로크를 파일체 계 에 
기록한다. 파일체계 에 대 한 입 출력자료전송이 완료되면 (자료가 파일체계 에 위 임되면) 기 
록에 있는 블로크복사본을 제거한다. 

체계에 장애가 발생했을 때 복구하는 과정에서 e 2 fsck 프로그람은 두가지 경우를 구 
분한다. 

기록에 위임되기 전에 발생한 체계장애. 고수준변경을 나타내는 블로크의 복사본이 
기록에 없거나 완료되지 않았다. 이런 경우 e 2 fsck 는 이것들을 무시한다. 

기록에 위임된 다음에 발생한 체계장애. 블로크의 복사본은 유효하며 e 2 fsck 는 이 
것들을 파일체계 에 기록한다. 

첫번째 경우 파일체계에 대한 고수준변경은 사라지지만 파일체계의 상태의 일관성은 
유지된다. 두번째 경우 e 2 fsck 는 전체 고수준변경을 적용하므로 파일체계에 대한 입출 
력자료전송이 제대로 완료되지 않아서 발생하는 일관성이 파괴된 상태를 해결한다. 

하지만 기록형 파일체계 에 너무 많은것을 기대하면 안된다. 기록형기능은 체계 호출수 
준에서만 일관성을 보장한다. 례를 들어 writeO 체계호출을 여 러번 사용하여 큰 파일을 
복사하는 도중 체계장애가 발생하면 복사연산을 중단하게 되고 과일의 복사본은 원본보 
다 짧아질수 있다. 

또한 기록형파일체계는 보통 모든 블로크를 기록에 저장하지 않는다. 각 파일체계는 
두 종류 즉 메 타자료와 일 반자료를 저 장하는 블로크로 구성 되 여있 다. Ext 2 와 Ext 3 에 는 
초블로크，그롭블로크서술자， i 마디, 간접주소지정에 사용하는 블로크(간접블로크), 자 
료비 트배 치 표블로크, i 마디비 트배 치 표블로크라는 모두 여 섯종류의 조종자료가 있 다. 다 
른 파일체계는 다른 조종자료를 사용한다. 

ReiserFS , SGI 의 XFS , IBM 의 JFS 와 같은 대부분의 기록형파일체계는 조종자료를 변 
경하는 연산들만 일지를 기록한다. 사실 조종자료의 로그레코드만 있으면 디스크의 파일체 
계자료구조의 일관성을 복구하는데 충분하다. 그러나 파일자료의 블로크에 대한 연산은 일 
지를 기록하지 않으므로 체계장애시 파일의 내용이 파괴되는것을 막아줄 방법은 없다. 

그러나 Ext 3 파일체계는 파일체계조종자료와 파일의 자료블로크를 변경하는 모든 연 
산에 대 해 일지를 기 록하도록 설정 할수 있 다. 모든 종류의 쓰기연산에 대 해 일지 를 남기 
는것은 심각한 성능저하를 나타내기때문에 Ext 3 는 체계관리자가 무엇에 대해 일지를 남 
길지를 결정하도록 하고있다. 즉 다음과 같은 세 종류의 기록형방식을 제공한다. 
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4 기록 ( Journal ) 

모든 자료와 조종자료변경에 대해 기록일지를 남긴다. 이 방식은 매 파일에 대 
한 갱 신을 잃을 가능성을 최소화하지만 추가적 인 디스크접근을 많이 요구한다. 례를 
들어 새로운 파일을 생성할 때 이 파일의 모든 자료블로크를 로그레코드에 복사해야 
한다. 이 방식은 Ext3 기록형방식중에서 가장 안전하고 가장 느린 방식 이 다. 

▲ 순차적 ( Ordered ) 

파일체계조종자료에 대해서만 기록을 남긴다. 그러나 Ext 3 파일체계는 조종자료 
와 이에 관련된 자료블로크를 그롭화해서 자료블로크들을 조종자료보다 먼저 디스크 
에 기록하도록 한다. 이렇게 함으로써 파일내부의 자료가 파괴되는 가능성을 최소화 
한다. 례를 들어 파일뒤 에 추가하는 모든 쓰기접근은 기록기능이 완벽하게 보호하는 
것 을 보장한다. 이 방식 은 Ext 3 의 기 본기 록방식이 다. 

4 - 되돌이 쓰기 ( Writeback ) 

파일체계조종자료에 대한 변경만 일지를 남긴다. 이 방법은 다른 기록형과일체 
계에서도 사용하며 가장 빠른 방식이다. 

Ext3 파일체 계 의 기 록형 방식 은 mount 명 령 에 항목으로 지 정할수 있 다. 례 를 들어 
/dev/sda2 구획에 저장된 Ext3 파일체계를 /jdisk 탑재지점에 되돌이쓰기방식으로 탑재 
하기 위해서 체계관리자는 다음과 같이 입력한다. 

# mount t ext 3 o data=writeback / dev / sda 2 / jdisk 

8. 기록형블로크장치계층 

Ext 3 기록기능은 보통 파일체계의 뿌리등록부에 . journal 이라는 숨은 파일에 저장된다. 
Ext 3 파일체계는 기록기능을 스스로 관리하지 않는다. 대신에 기록형블로크장치 
( JBD ： Journaling Block Device ) 라는 일반핵심부계층을 사용한다. 지금은 Ext 3 만 
JBD 계층을 사용하지만 나중에는 다른 파일체계가 사용할수도 있다. 

JBD 계 층은 좀 복잡한 쏘프트웨어 이 다. Ext 3 파일 체 계 는 이 후연산이 체 계 장애 인 경 
우에도 디스크자료를 과피하지 않도록 하기 위해 JBD 루린을 호출한다. 그러나 JBD 는 
보통 Ext 3 파일체 계 가 실행한 변화를 디 스크에 일지 로 남기 려 고 동일한 디스크를 사용하 
며 따라서 Ext 3 와 마찬가지로 체계장애에 취약하다. 다시 말하면 JBD 는 기록을 깨뜨릴 
수도 있는 체 계장애 로부터 자기 자신도 보호를 해 야 한다. 따라서 Ext 3 와 JBD 사이의 호 
상작용은 다음과 갈은 기 본적 인 단위를 바탕으로 한다. 

4 - 로그레코드 (Log record ) 

기록형파일체계의 디스크블로크 하나에 대한 갱신 한번을 나타낸다. 

4 원자적연산조종 (Atomic operation handle ) 

파일체계에 대한 고수준변경하나를 나타내는 로그레코드를 포함한다. 파일체계를 변 
경하는 매 체계호출은 원자적작업조종 하나를 생성한다. 


透資© @資變©^ 


161 


Linux 행심부해설서 

4 취급 ( Transaction ) 

여러 원자적작업조종로서 이것들의 로그레코드들은 e 2 fsck 에 대해 동시에 유효하다 
고 표시된다. 


1) 로그레코드 

로그레 코드는 파일체 계 가 실 행 하는 저수준연산하나를 나타낸 다. 어 떤 기 록형파일체 계 
에서는 로그레 코드는 저수준연산이 변경 한 정 확한 바이트범위자료와 파일체계 에서의 시 작 
위 치로 구성되 여있다. JBD 계층에서 로그레코드는 저수준연산이 변경한 완충기 전체로 구 
성 되 여있 다. 이 접 근방법 은 기 록공간을 랑비 할수 있지 만(례 를 들면 저 수준연산이 비 트배 
치 표의 한 비 트를 변경 했을 때) JBD 계 층이 완충기，완충기머 리부와 직 접 작업할수 있으므 
로 훨씬 빠르게 동작한다. 따라서 로그레코드는 기록안에서 자료(또는 조종자료)의 볼로 
크로 표현 한다. 그러나 각 블로크에 는 journal _ block _ tag _ t 형태인 작은 태그가 붙어있 어 
서 파일체 계 에서 블로크의 론리 적블로크번호와 몇 가지 상태기 발을 저 장한다. 

후에 완충기가 로그 레코드에 속하거나 완충기가 대응하는 조종자료블 로크 보다 먼저 
디 스크에 흘리 기 되 여 야 하는 자료블 로크 인 경 우(《 순차적 ( ordered ) 》기 록방식 인 경 
우)， JBD 가 완충기를 처리하면서 핵심부는 journalJiead 자료구조를 완충기머리부에 
붙인다. 이 경우에 완충기머리부의 b _ private 마당에 journal _ head 자료구조의 주소를 
저장하고 journal _ head 기 발을 설정 한다. 

2) 원자적연산조종 

파일체계를 변경 하는 체계 호출은 보통 디스크자료구조를 처리 하는 저수준연산의 련 
속으로 분리된다. 례를 들어 한 블로크의 자료를 정규파일의 뒤에 추가해달라는 사용자 
의 요청을 Ext 3 에서 처리해야 한다고 가정하자. 파일체계계층은 파일의 마지막블로크를 
결정 하고 파일체계 에서 여 유블로크를 찾고 적절한 블로크그름의 자료블로크비 트배 치 표를 
갱 신하고 새 로운 블로크의 론리 적 번호를 파일의 i 마디 나 간접 주소지 정 블로크에 저 장하고 
새로운 블로크의 내용을 기록하고 끝으로 i 마디의 몇개의 마당을 갱신한다. 이렇게 사용 
자의 자료추가연산은 파일체계의 자료와 조종자료에 대한 여러 저수준연산으로 변환된다. 

이제 추가연산의 중간에 체계장애가 발생하였다고 가정하자. 어떤 저수준 처리는 실 
행되였고 어떤것들은 실행되지 않았다. 물론 더 심각한 상황일수도 있다. 고수준연산이 
파일 두개 이상에 영향을 주고있을수도 있다. (례를 들면 한 등록부에서 다른 등록부로 파 
일을 옮기는 경우) 

자료가 파괴되는것을 막기 위해 Ext 3 파일체계는 매 체계호출을 원자적으로 처리하 
도록 보장해 야 한다. 원자적연산조종은 고수준연산 하나에 대 응하는 디스크자료구조에 
대 한 저수준연산들의 집 합이 다. 체 계장애 에 서 복구할 때 파일체 계 는 고수준연산전체 가 
적용되거나 아니면 저수준연산중에서 하나도 실행되지 않도록 보장한다. 
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원자적연산조종은 handle _ t 형태의 서술자로 나타낸다. 원자적연산을 시작하기 위해 
Ext 3 파일체계는 journal _ start () JBD 함수를 호출한다. 이 함수는 필요하면 새로운 원 
자적연산조종을 할당하고 조종은 현재 취급 ( Transaction ) 에 추가한다. 디스크에 대한 
저 수준연산이 프로쎄 스를 연기 할수 있 으므로 활성 화된 조종의 주소는 프로쎄 스서 술자의 
journal _ info 마당에 저장한다. Ext 3 파일체계는 원자적연산의 완료를 알리기 위해 
journal _ stop () 함수를 호출한다. 

3) 취급 ( Transaction ) 

효률을 높이기 위해서 JBD 계층은 여러 원자적연산조종에 속하는 로그레코드를 취급 
으로 묶어서 관리한다. 그리 고 한 조종에 속하는 모든 로그레코드는 반드시 같은 취급에 
속해 야 한다. 한 취급의 모든 로그레코드는 기록의 련속한 블로크에 저장한다. JBD 계층 
은 각 취급전체를 하나로 처 리한다. 례를 들면 어떤 취급에 속한 모든 로그레코드가 파 
일체계에 위임된 다음에만 취급이 사용한 블로크들을 회수한다. 취급은 생성되자마자 새 
로운 조종의 로그레코드를 받을수 있다. 취급은 다음 경우중 하나가 발생하면 새로운 조 
종을 받는것을 중단한다. 

> 지정한 시 간이 경과했을 때 (보통 5 s ) 

> 기록에 새로운 조종을 위한 여유블로크가 남아있지 않을 때 

취급은 transaction 」; 형태의 서술자로 나타낸다. 가장 중요한 마당은 i _ state 로 취 
급의 현재상태를 나타낸다. 

취급은 다음과 갈은 상태 일수 있다. 

4) 완료됨 ( Complete ) 

취급에 포함된 모든 로그레코드를 물리적으로 기록하였다. 체계장애에서 복구할 
때 e 2 fsck 는 기록의 모든 완료된 취급을 검토하여 대응하는 블로크를 파일체계 에 기 
록한다. 이 경우 i _ s 切 te 마당에는 T _ FINISHED 값을 저장한다. 

5) 완료되지 않음 ( Incomplete ) 

취급의 로그레코드 한개이상을 아직 일지에 물리적으로 기록하지 않았다. 체계 
장애가 발생하면 일지 에 저장된 취급의 영상은 최신이 아니기 쉽다. 따라서 체계장 
애에서 회복하는 과정에서 e 2 fsck 는 기록에 있는 완료되지 않은 취급을 믿지 않고 
무시하고 건너편다. 이 경우 匕 state 마당은 다음중 한 값을 저장한다. 

T_RUNNING 

여 전히 새 로운 원자적 연산조종을 받는다. 

T_LOCKED 

새로운 원자적연산조종을 받지 않는다. 그러 나 그중 일부는 아직 완료되지 
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않았다. 

T_FLUSH 

모든 원자적 연산조종이 완료되 였 다. 그러 나 로그레 코드가 아직 기 록되 고있 다. 

T—COMMIT 

원자적 연산조종의 모든 로그레 코드가 디 스크에 기 록되 였으며 취 급이 완료되 
였 다고 기 록에 표시한다. 

어떤 순간에도 기록은 여러 취급을 가지고있을수 있다. 그중 단 하나만 
T_RUNNING 상태 이 고 이 취 급이 Ext3 파일 체 계 가 요청 한 새 로운 원자적 연산조 
종을 받는 활성 화된 취 급이다. 

기록에 있는 취급중 어떤것은 로그레코드를 포함하고있는 완충기를 아직 기록하지 
않아서 완료하지 않은 상태에 있을수 있다. 

JBD 계층이 검사하여 로그 레코드가 나타내는 모든 완충기를 Ext3 파일체계에 성공적 
으로 기록했음을 확인하면 완료 한 취급은 기록에서 삭제한다. 따라서 완료 한 취급 여러 
개와 완료 하지 않은 기록을 최대 한개를 가질수 있다. 완료 한 취급의 로그 레코드는 기록 
되였지만 대응하는 완충기중 일부는 파일체계에 아직 기록되지 않았을수도 있다. 

9. 기록기능의 동작 

이제부터 기록기능이 어떻게 동작하는지 다음과 같은 례를 들어 보자. 

Ext3 파일체계계층이 어떤 정규파일의 일부 자료블로크를 기록하라는 요청을 받았다. 

여기서는 Ext3 파일체계계층과 JBD 계층에 대해 각 행단위연산을 설명하지는 않는다. 
이렇게 하려면 너무나 많은 내용을 다루어야 하므로 핵심적인 동작위주로 설명한다. 

① write () 체 계 호출의 봉사루린은 Ext3 정규파일 에 련관된 파일객 체 의 write 메 쏘드 
를 시작하게 한다. Ext3 의 경우 이 메쏘드는 generic_file_write() 함수로 실현한다. 

② generic_file_wrtie() 함수는 쓰기 연산에 관련된 자료의 각 페지 에 대 해 한번씩 
address_space 객체의 prepare_write 메 쏘드를 여러번 호출한다. Ext3 의 경우 이 메쏘 
드는 ext3_prepare_write () 함수로 실현 한다. 

③ ext3_prepare_write() 함수는 journal_start() JBD 함수를호출하여 새 로운 원자 
적연산을 시작한다. 운전은 활성취급에 추가된다. 원자적연산조종은 journal_start 0 함 
수를 처음 호출할 때 생성되고 이후 호출은 프로쎄스서술자의 journal_info 마당이 설정 
되 여있음을 확인하고 참조한 조종을 사용한다. 

④ ext3_prepare_write() 함수는 block_prepare_write() 함수를 호출한다. 변수로 
서 ext3_get_block() 함수의 주소를 전달한다. block_prepare_write() 함수는 완충기와 
파일의 폐지의 완충기머리부를 관리한다. 

© 핵심부가 Ext3 파일체계에서 어떤 블로크의 론리블로크번호를 알아내야 할 때 
ext3_get_block() 함수를 호출한다. 이 함수는 ext2_get_block() 와 류사하다. 핵심적 
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인 차이는 Ext3 파일체계에서 JBD 계층의 함수를 호출하여 저수준연산의 일지가 남도록 
보장한다는 점이다. 

> 파일체 계 의 조종자료블로크에 대 해 저 수준의 쓰기연산을 요구하기 전에 함수는 
journal _ get _ write _ access () 를 호출한다. 이 함수는 조종자료완충기를 활성취 
급의 목록에 추가한다. 그러 나 조종자료가 기록의 오래되 고 완료되지 않은 취급 
에 포함되 여있는지 검 사하여 이 경 우 완충기 를 복제 하여 이 전 취 급은 이 전 내 용 
으로 위임되도록 해야 한다. 

> 조종자료블로크를 포함하는 완충기를 갱신한 다음 Ext3 파일체계는 

journal_dirty_metadata() 를 호출하여 조종자료완충기를 활성취급의 적절한 
불결한 목록으로 옮기고 연산에 대해 일지를 기록한다. 

JBD 계층이 처 리하는 조종자료완충기는 i 마디완충기의 불결한 목록에 포함되지 않으 
며 따라서 일반디스크캐쉬 처 리기법에서는 디스크에 기록되지 않는다. 

運) Ext 3 파일체계를 《기록》방식으로 밥재하였다면 ext 3_ prepare _ write 0는 쓰기 
연산이 값을 바꾼 모든 완충기 에 대해 journal _ get _ write _ acces , s () 를 호출한다. 

⑦ 다시 generic_file_write() 함수로 돌아와서 사용자방식의 주소공간에 저장된 자 
료로 페지를 갱신하고 address_space 객체의 commit_write 메쏘드를 호출한다. Ext3 의 
경우 이 메쏘드는 ext3_commit_write() 함수로 실현한다. 

⑧ Ext3 파일 체 계 를 《 기 록》방식 으로 탑재 하였 다면 ext3_commit_write 0 는 페 지 
의 모든 자료완충기 (조종자료는 제외)에 대해 journal_dirty_metadata() 를 호출한다. 
이렇게 함으로써 완충기는 활성취급의 적절한 불결한 목록에 포함되고 소유자 i 마디의 불 
결한 목록에 들어 가지 않는다. 그러고 대응하는 로그레코드를 기록한다. 

⑨ Ext3 파일체 계 를《 순차적》방식 으로 탑재 하였다면 ext3_commit_write() 함수는 
폐지의 모든 자료완충기에 대해 journal_dirty_data() 함수를 호출하여 완충기를 활성취 
급의 적절한 목록에 삽입한다. JBD 계층은 취급의 조종자료 완충기가 기록되기전에 이 
목록의 모든 완충기가 기록되는것을 보장해준다. 아무 로그 레코드도 기록하지 않는다. 

⑩ Ext3 파일 체 계 를 《 순차적》또는 《 되 돌이 쓰기》방식 으로 탑재하였 다면 
ext3_commit_write() 함수는 일반 generic_commit_write() 함수를 호출한다. 이 함수 
는 자료완충기를 사용자 i 마디의 불결한 완충기목록에 삽입 한다. 

⑪ 끝으로 ext3_commit_write() 는 journal_stop() 을 호출하여 JBD 계층에 원자적 
연산조종이 닫힌 사실을 알려준다. 

⑫ writeO 체계호출의 봉사루린이 여기서 완료된다. 그러나 JBD 계층의 작업은 남 
아있다. 모든 취급의 로그레코드를 물리적으로 기록에 저장하면 취급은 완료상태 가 된다. 
그리고나면 journal_comniit_transactionO 을 실행 한다. 

⑬ Ext3 파일체 계를 《 순차적 》 방식 으로 탑재 하였다면 journal_commit_ 
transac 仕 on() 함수는 취급의 목록에 포함된 모든 자료완충기에 대해 입출력 자료완충기 
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를 활성화하고 모든 자료전송이 완료될 때까지 기다린다. 

⑭ journal _ commit _ transaction () 함수는 취 급에 포함된 모든 조종자료완충기 에 대 
한 입출력자료전송을 활성화한다. ( Ext 3 를《기록》방식으로 탑재하였다면 모든 자료완 
충기를 포함한다.) 

⑮ 핵 심 부는 주기 적 으로 기 록에 있는 모든 완료된 취 급에 대 해 검 사지 적 자를 활성 화 
한다. 검사지 적 자는 journal _ commit _ transac 社 on 0 이 시작한 입출력 자료전송이 성공적 
으로 완료했는가를 검사한다. 그렇다면 퀴급을 기록에서 삭제할수 있다. 

물론 기록에 있는 로그레코드는 체계장애가 발생할 때까지 어떤 실제적 인 일도 하지 
는 않는다. 장애가 발생하면 e 2 fsck 유털리리프로그람이 파일체계에 저장된 기록을 탐색 
하고 완료된 취급의 로그레코드가 나타내는 모든 쓰기연산을 다시 순서짜기한다. 
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제 3 장. 프로쎄스관리 

제 1 절. 프로쎄스 

《 프로쎄 스 ( process ) 》는 모든 다중과제 ( mul 吐 programming ) 조작체 계 의 필수적 인 
개념이다. 프로쎄스는 일반적으로 실행상태에 있는 프로그람의 실체 ( instance ) 로 정의 
한다. 따라서 사용자 16명이 동시에 vi 프로그람을 실행하고있다면 (이것들이 똑같은 실 
행코드를 공유하더 라도) 각각 다른 프로쎄스가 16개 존재하는 셈 이 다. Linux 원천코드 
에서는 프로쎄스를 가리켜 《과제 ( task )》 또는《스레드 ( thread )》 라고 부르기도 한다. 

이 장에서는 먼저 프로 쎄스의 정적인 특성을 살펴본 후 핵심부가 프로 쎄스절환을 어 
떻게 하는가를 설명한다. 마지막 두 부분에서는 프로 쎄스가 어떻게 만들어지고 없어지는 
가를 본다. 또한 Linux 가 《 1 장 소개》에서 언급한 가벼운 프로 쎄스 (LWP: 
lightweight process) 를 기반으로 하는 다중 스레드 응용 프로그람을 어떻게 지원하는가 
도 설명한다. 

1. 프로쎄스와 가벼운 프로쎄스, 스레드 

《프로 쎄스》라는 용어는 여러가지 다른 의미로 사용된다. 이 책에서는 일반적인 조 
작체 계교과서에 나오는 정의 (프로 쎄스는 실행상태 에 있는 프로 그람의 실체 이 다.)를 따른 
다. 프로 쎄스를 프로 그람의 실행이 얼마나 진행되였는지를 완전하게 서술하는 자료구조 
의 집 합이라고 생 각해 도 된 다. 

핵심부관점에서 보면 프로쎄스의 목적은 체계자원 ( CPU 시간이나 기 억기 등)을 할당 
받는 존재로서 동작하는것 이 다. 

초기에 만들어진 프로 쎄스는 부모와 거의 같다. 프로 쎄스는 부모의 주소공간이 (론리 
적인) 복사본을 받아 부모와 똑같은 코드를 실행하며 프로 쎄스를 만든 체계호출 다음에 
있는 명 령부터 시작한다. 부모와 자식은 프로 그람코드(본문)가 들어있는 폐지를 공유하지 
만 자료(탄창과 동적기억구역)는 서로 별개의 복사본을 가진다. 따라서 자식 프로 쎄스가 
기 억기의 내용을 바꾸더 라도 부모 프로 쎄 스에 보이지 않는다. (반대경우도 마찬가지 이 다.) 

초기 Unix 핵심부는 이렇게 간단한 모형을 채택했지만 최근 Unix 체계는 다르다. 요 
즘 응용프로그람자료구조의 대부분을 공유하면서 서로 독립적 인 다수의 실행흐름으로 이 
루어 진 사용자프로그람，즉《 다중스레 드응용프로그람 ( mul 仕比 ireaded application ) 》 
을 지원한다. 이런 체계에서 프로쎄스는 여러 《사용자스레드 (user thread , 간단히 스 
레드라고도 한다.)》로 이루어지고 매 스레드는 프로쎄스의 실행흐름을 나타낸다. 요즘 
표준서 고인 《 p 仕 iread(POSIX thread ) 》서 고함수를 리 용해 서 대 부분의 다중스레 드응 
용프로그람을 작성 한다. 

이 전 판본의 Linux 핵 심 부에 서 는 다중스레 드응용프로그람을 지 원 하지 않았다. 핵 심 
부관점 에 서 보면 다중스레 드응용프로그람은 그냥 보통 프로쎄 스일뿐이 였 다. POSIX 호환 
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인 p 仕 iread 서고를 사용해서 다중스레드응용프로그람의 여러 실행흐름을 완전히 사용자 
방식 에 서 만들고 조종하며 순서 짜기 하였 다. 

그렇지만 이런 식의 다중스레드응용프로그람실현은 아주 만족스럽지는 않다. 례를 
들어 스레드 두개를 사용하는 장기프로그람을 생각해보자. 둘중 하나는 그라픽장기판을 
조종하고 유희하는 사람이 말을 옮기길 기다리며 를퓨터가 말을 움직이면 이것을 화면에 
보여준다. 다른 스레드는 유희의 다음 수를 생각한다. 첫번째 스레드가 사람이 말을 옮 
기길 기다리는동안 두번째 스레드를 계속 실행해서 사람이 생각하는 시간을 활용해야 한 
다. 그런데 장기프로그람을 한 프로쎄스로 구현한다면 첫번째 스레드는 사용자의 반응 
을 기다리면서 블로크상태로 들어가는 체계호출을 실행할수 있다. 이것을 호출하면 두번 
째 스레드 역시 차단될것이다. 대신 첫번째 스레드는 프로쎄스가 실행상태로 남아있을수 
있도록 차단을 안하게 하는 복잡한 기법을 사용해야 한다. 

Linux 는 다중스레드응용프로그람을 잘 지원하기 위해 《 가벼운 프로쎄스 
(lightweight process ) 》를 사용한다. 기 본적 으로 두 가벼 운 프로쎄 스는 주소공간이 나 
열린파일 등 여러 자원을 공유할수 있다. 그리고 둘중 하나가 공유하는 자원에 어떤 변 
경을 가하면 다른 쪽도 바권 부분을 바로 알수 있다. 두 프로쎄스는 공유자원을 접근할 
때 서로 동기화를 해야 한다. 

가벼운 프로쎄스를 사용할수 있다면 각 스레드를 가벼운 프로쎄스와 련계함으로써 
다중스레드응용프로그람을 쉽게 실현할수 있다. 이렇게 스레드는 간단히 같은 기억기주 
소공간과 같은 열린파일 등을 공유함으로써 갈은 응용프로그람자료구조에 접근할수 있 
다. 동시에 핵심부는 매 스레드를 서로 독립적으로 순서짜기할수 있기때문에 한 스레드 
가 잠든 상태 라도 다른 스레드는 실행상태로 있을수 있다. 

Linux 의 가벼운 프로쎄스를 사용하는 POSIX 호환 pttiread 서고의 례로는 《Linux 
스레 드 ( LinuxThread ) 》와 최 근 IBM 에 서 발표한《 다음세 대 POSIX 스레 드화패 키지 
( NGPT , Next Generation Posix Threading Package ) 》가 있 다. 

2. 프로쎄스서술자 

프로쎄스를 마루려면 핵심부는 매 프로쎄스가 무엇을 하고있는지 명확히 알아야 한 
다. 례를 들어 핵심부는 프로쎄스의 우선순위 , 프로쎄스가 실행상태 에 있는지 아니면 어 
떤 사건을 기다리며 차단상태에 있는지，프로쎄스에 어떤 주소공간이 할당되여있는지, 
어떤 파일을 다룰수 있는지 등을 알아야 한다. 이것이 프로쎄스서술자 (process 
descriptor ) 즉 한 프로쎄스와 관련된 모든 정보를 담고있는 task _ struct 자료구조의 역 
할이다. 프로쎄스서술자는 매우 많은 정보를 저장하고있기때문에 상당히 복잡하다. 여기 
에는 프로쎄스의 특성을 가지고있는 많은 마당외에도 다른 자료구조를 가리키는 지적자 
를 포함하는 또 다른 자료구조에 대한 지적자도 여러개 있다. 그림 3-1 은 Linux 의 프 
로쎄 스서 술자를 도식 화해 서 보여 준다. 
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그림 에 서 오른편 에 있는 자료구조 다섯 개 는 프로쎄 스가 소유하는 특정 자원을 가리킨 
다. 이 자원에 대해서는 후에 설명하기로 하고 이 절에서는 프로쎄스상태를 나타내는 마 
당과 부모/자식 ( parent / child ) 간의 관계를 나타내는 마당，이렇게 두 종류 마당에만 
초점을 맞춘다. 


state 

flags 

need _ resched 

counter 

nice 

next _ task 
prev _ task 

run _ list 


P _ optr 
P _ PPtr 


tty 


thread 


fs 

files 


sigmask _ lock 
sig 


ttv struct 


프로쎄 스와 련관된 ttv 


---► 


파일서술자 
지 시 자 


---► 

---► 


i 기억기령역 
I 서술자， 

^ 지시자 

signal struct 

수신한 신호 


그림 3-1. 리눅스 프로쎄스 서술자 
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3. 프로쎄스상태 


프로세스서술자의 상태마당은 이름그대로 프로쎄스에서 현재 무슨 일이 벌어지고있 
는가를 나타낸다. 이 마당은 기발의 배럴로 구성되며 매 기발은 가능한 프로쎄스상태를 
나타낸다. 현재 Linux 판본에서 매 상태는 호상배타적이다. 따라서 상태에 기발을 하나 
설정하면 나머지 기발은 모두 지워진다. 다음은 가능한 프로쎄스상태목록이 다. 
TASK_RUNNING 

프로쎄스가 CPU 에서 실행중이거 나 실행되 기를 기 다리는중이 다. 
TASKJNTERRUPTIBLE 

프로쎄스가 어떤 조건이 맞아떨어지기를 기다리며 보류중(잠들어 있는중)이다. 
프로쎄스를 깨울수 있는 조건으로는 하드웨어새치기가 발생하거나 프로쎄스가 기다 
리고있는 자원이 해제되거나 프로쎄스에 신호를 전달하는것 이 있을수 있다. (프로쎄 
스는 깨 여 나면 TASK_RUNNING 상태 로 되 돌아간다. ) 
TASK-UNINTERRUPTIBLE 

우와 비슷하지만 잠들어있는 프로쎄스는 신호를 전달해도 프로쎄스상태가 바뀌 
지 않는다는 차이가 있다. 이 프로쎄스상태는 거의 사용하지 않는다. 그러나 프로쎄 
스가 정 해 진 사건 이 발생 하기 를 기 다리 는 도중에 방해받으면 안되 는 특수한 상황에 
서 효과적이다. 례를 들어 프로쎄스가 장치파일을 열 때 해당 장치구동프로그람이 
자신이 다룰 하드웨어장치가 있는가를 조사하는 경우에 이 상태를 사용할수 있다. 
장치 구동프로그람은 조사를 완료할 때 까지 방해받으면 안된 다. 그렇 지 않으면 하드 
웨어장치가 예측할수 없는 상태 에 빠질수도 있다. 

TASK_STOPPED 

프로쎄 스실행 이 중단되 였다. 프로쎄 스는 SIGSTOP , SIGTSTP , SIGTTIN , 
SIGTTOU 신호를 받으면 이 상태가 된다. 특정프로쎄스가 다른 프로쎄스를 감시하 
고있을 때(례를 들면 오유추적기가 ptraceO 체계호출을 실행하여 다른 프로그람을 
감시하는 경우) 신호는 프로쎄스를 TASK_STOPPED 상태로 만들수 있 다. 

TASK_ZOMBIE 

프로쎄 스실 행 은 완료했지 만 부모프로쎄 스가 wait () 계 렬체 계 호출 ( wait (), 
wait 3 () , wait 4 () , waitpidO ) 을 호출하여 완료한 프로쎄스의 정보를 반환하지 않 
은 경우이다. 부모프로쎄스가 waitO 계렬체계호출을 실행하기 전에는 완료한 프로쎄 
스의 프로쎄스서술자에 들어있는 자료를 부모프로쎄스가 필요로 할수 있기때문에 핵 
심부는 이 자료를 없애서는 안된다. (이 절 뒤에 있는《프로쎄스제거》를 참고) 
이외에도 프로쎄스상태에는 TASK_TRACED 와 TASK_DEAD 가 있다. 
state 마당값은 보통 다음과 같이 간단한 할당문을 사용하여 설정한다. 
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procdesc _ ptr->state = TASK-RUNNING 
핵심부에서는 set _ task_state 와 set _ current_state 마크로를 사용하기도 하는데 각 
각 지정한 프로쎄스와 현재 실행하는 프로쎄스의 프로쎄스상태를 설정한다. 더 나가서 
이 마크로는 우의 대 입 연산이 콤파일러 나 CPU 조종단위에 의해 다른 명 령와 섞이지 않 
게 한다. 명령순서가 섞이면 종종 왕청갈은 결과가 나올수 있다. 


4. 프로쎄스구별하기 


독립적으로 순서짜기할수있는 모든 실행문맥은 자신만의 프로쎄스서술자를 가져야 
한다. 따라서 핵심부자료구조의 웃부분을 서로 공유하는 가벼운 프로쎄스라도 자신만의 
task _ struct 구조체를 가진 다. 

이렇게 프로쎄스와 프로쎄스서술자사이에는 엄격한 1:1대응관계가 있어서 32 bit 프 
로쎄스서술자주소를 리용해서 프로쎄스를 편리하게 구별할수 있다. 이런 주소를《프로 
쎄 스서 술자지 적 자 (process descriptor pointer ) > 라고 한다. 핵 심부는 대부분 프로쎄 
스서술자지적 자를 통해 프로쎄스를 참조한다. 

반면에 모든 Unix 계렬조작체계에서 사용자는 프로쎄스 ID ( PID ： process ID ) 라 
는 수자로 프로쎄스를 구별한다. PID 는 프로쎄스서술자의 pid 마당에 저장하며 PID 수자 
는 순차적으로 할당한다. 새로 만든 프로쎄스의 PID 는 보통 바로 전에 만든 프로쎄스의 
PID 에 1을 더한 값이다. 그러나 16 bit 하드웨어작업기에서 개발한 고전 Unix 체계와 호 
환성을 유지하기 위해 Linux 에서 사용할수 있는 최대 PID 수자는 32767이다. 핵심부는 
32768번째 프로쎄스를 만들 때 사용하지 않는 낮은 PID 수자를 재활용하여 번호를 매기 
기 시작한다. 

Linux 는 체계에 있는 각각의 프로쎄스나 가벼운 프로쎄스에 서로 다른 PID 를 부 
여한다.(뒤에서 보지만 다중처리기체계에서는 약간의 례외가 있다.) 이 방법은 체계에 
있는 모든 실행흐름을 고유하게 구별할수 있어 매우 유연하다. 

반면에 Unix 프로그람작성자는 같은 그를에 있는 스레드는 PID 가 같을것이라고 생 
각한다. 례를 들어 PID 를 하나만 지정하여 신호를 보내서 그룹에 들어있는 모든 스레드 
에 영향을 미칠수 있어야 한다. 사실 POSIX 1003.1 c 표준에서는 다중스레드응용프로그 
람의 모든 스레드는 PID 가 같아야 한다고 서술하고있다. 

표준과 호환성을 유지하기 위해 Linux 2.6 에서는 《 스레드그룹(比 iread group ) > 
이 라는 개 념을 도입하였다. 스레 드그를은 본질적 으로 다중스레 드응용프로그람의 스레드 
에 해 당하는 가벼운 프로쎄스의 묶음이 다. Task_struct 구조체의 thread_graup 마당에 
있는 스레 드그름에 들어있는 모든 가벼 운 프로쎄 스의 서 술자를 2중련결목록으로 묶는다. 
스레드는 그 그룹에 있는 첫번째 가벼운 프로쎄스의 PID 를 식별자로 공유하며 이것을 
프로쎄스서술자의 rgid 마당에 저장한다. getpidO 체계 호출은 current->pid 가 아닌 
current->tgid 를 반환한다. 따라서 다중스레드응용프로그람의 모든 스레드는 같은 식 
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별자를 공유한다. 일반프로쎄스나 스레드그를에 들어가지 않는 가벼운 프로쎄스의 경우 
gid 마당은 pid 마당과 값이 같다. 따라서 이러한 프로쎄스에는 getpidO 체계호출이 평시 
처럼 동작한다. 

PID 를 가지고 실제프로쎄스서술자지적자를 효률적 이고 뽑아내는 방법은 후에 본다. 
kill () 을 비롯한 많은 체계 호출은 대상이 되는 프로쎄스를 가리 킬 때 PID 를 사용하기때 
문에 PID 를 효률적으로 검색 하는것 이 중요하다. 

1) 프로쎄스서술자 다루기 

프로쎄스는 수명이 짧아서 몇 ms , 길어서 몇달에 이르는 동적인 존재이다. 따라서 
핵심부는 동시에 많은 프로쎄스를 다룰수 있어야 하고 프로쎄스서술자를 항상 핵심부에 
할당된 기억기령역에 저장하는것보다는 동적인 기억기에 저장하는것이 좋다. Linux 는 
8 kB 기 억기 령 역 하나에 매 프로쎄스를 위한 서로 다른 두가지 자료구조를 저장한다. 하 
나는 프로쎄 스서 술자이 고 다른 하나는 핵 심 부방식 프로쎄 스탄창이다. 

프로쎄스는 핵심부방식에서 동작할 때 사용자방식에서 사용하는 탄창과 다른 핵심부 
자료토막에 있는 탄창을 사용한다고 설명 하였 다. 핵 심 부조종경 로에 서 는 탄창을 조금밖에 
사용하지 않기때문에 핵심부탄창은 몇천 B 정도만 필요하다. 따라서 8 kB 는 탄창과 프로 
쎄스서술자를 담는데 충분한 공간이 다. 

그림 3-2 는 두 자료구조를 두 폐지 (8 kB ) 크기의 기 억기령역에 어떻게 저장하는가를 
보여준다. 프로쎄스서 술자는 기 억기 령역의 처음부터 시 작하고 탄창은 끝에서 시 작한다. 

esp 등록기는 탄창의 맨우의 위치를 가리키는 CPU 의 탄창지적자 (stack pointer ) 이 
다. Intel 체 계 에 서 탄창은 기 억 기 령 역 의 끝에 서 시 작해 서 령 역 의 시 작쪽으로 커 진 다. 사 
용자방식 에서 핵 심부방식으로 절환한 후 프로쎄 스의 핵 심부탄창은 항상 비 여있고 따라서 
esp 등록기는 기 억기령역 바로 뒤에 있는 바이트를 가러 킨다. 

탄창에 자료를 기록하면 esp 의 값은 감소한다. 프로쎄스서술자의 크기는 1000 B 가 
채 안되기때문에 핵심부탄창은 7200 B 정도까지 늘어 날수 있다. 
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그림 3-2. 프로쌔스서술자와 프로쎄스렉 심 부탄창 저장하기 

C 언어 에서는 다음과 같은 공용체 ( union ) 구조를 러용해서 프로쎄스서술자와 프로쎄 
스의 핵심부탄창을 간편하게 표현할수 있다. 
union task_union { 

struct task_struct task ； 
unsigned long stack [2048] : 

}； 

그림 3-2 에서 프로쎄스서술자는 0 x 015 fa 000 주소부터 들어있고 탄창은 
0 x 015 fc 000 부터 시작한다. 현재 탄창의 맨 우를 가리키는 esp 등록기의 값은 
0 x 015 fa 878 이다. 

핵심부는 프로쎄스서술자와 핵심부탄창을 저장하는 8 kB 크기의 기 억기 령역을 할당하 
고 해제할 때 각각 alloc _ struct 와 free _ task _ struct 마크로를 사용한다. 
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2) current 마크로 

앞에 서 설 명한것 처 럼 프로쎄 스서 술자와 핵 심 부방식탄창을 긴밀 하게 련계 지 으면 효률 
성측면에서 리득을 볼수 있다. 핵심부는 esp 등록기값을 리용하여 CPU 에서 현재 실행 
중인 프로쎄스의 프로쎄스서술자지적 자를 쉽게 얻을수 있다. 실제로 기억기령역의 크기 
는 8kB(2 13 B) 므로 핵심부는 esp 등록기의 아래 13bit 만 지우면 프로쎄스서술자의 시작 
주소를 얻을수 있다. current 마크로가 바로 이 일을 하는데 이 마크로를 콤파일하면 다 
음과 같은 기호언어 명 령 이 만들어 진다. 
movl $0xffffe000, %ecx 
andl 名 esp, %ecx 
movl %ecx, p 

이 월명령을 실행하면 p 는 이 명령을 실행한 CPU 에서 실행중인 프로쎄스의 프로쎄 
스서술자의 지적자를 가지게 된다. 

핵 심 부코드에 서 current 마크로를 프로쎄 스서 술자마당앞에 앞붙이 처 럼 붙여 서 쓰는 
것을 종종 볼수 있다. 례를 들어 current->pid 는 CPU 에서 현재 실행중인 프로쎄스의 
프로쎄스 ID 를 반환한다. 

프로쎄스서술자와 탄창을 함께 저장하는 방식의 또 다른 우점은 다중 처리기체계에 
서 나타난다. 앞에서 본것처럼 단지 탄창을 검사하는것만으로 각 하드웨어처리기의 정확 
한 현재프로쎄스를 알아낼수 있다. Linux 2.0 에서는 핵심부탄창과 프로쎄스서술자를 
함께 지정하지 않았다. 대신 실행중인 프로쎄스의 프로쎄스서술자를 가리키는 대역정적 
변수인 current 를 사용해야 하였다. 다중처리기체계에서는 current 변수를 각 CPU 에 
해당하는 요소 (element) 를 하나씩 담은 배럴로 만들어야 하였다. 

3) 프로쎄스목록 

핵 심부는 주어 진 류형 (례 를 들면 실 행 가능한 상태 에 있는 모든 프로쎄 스)에 맞는 프 
로쎄스를 효률적으로 찾을수 있도록 여러 프로쎄스목록 (process list) 을 만든다. 매 목 
록은 프로쎄 스서 술자를 가리 키 는 지 적 자로 이 루어 진다. 프로쎄 스서 술자의 자료구조안에 
는 목록지적자(즉 각 프로쎄스가 다음 프로쎄스를 가리키는데 사용하는 마당) 하나가 들 
어있다. C 언어로 정의한 task_struct 구조체를 보면 이 자료구조는 재귀적인 방법으로 
복잡하게 얽힌것처럼 보일수도 있다. 그러 나 개 념자체는 자신의 다음요소를 가리키는 지 
적자를 담는 자료구조인 여느 목록보다 복잡하지 않다. 

원형 2 중련결목록 (circular doubly linked list, 그림 3-3 참고)은 존재 하는 모든 
프로쎄스서술자를 서로 련결하는데 앞으로 이것을 프로쎄스목록 (process list) 이라고 한 
다. 목록을 실현하기 위해서 매 프로쎄스서술자에 있는 prev_task 와 next_task 마당을 
사용한다. 목록의 머 리는 init_task 서 술자이다. 이것은 모든 프로쎄스의 조상으로《 프 
로쎄 스 0 (process 0) 》또는《 교환기 억 기 (swapper) 》라고 부른다. (뒤 에 나오는《 핵 
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심부스레 드》참고) init_task 의 prev_task 마당은 목록에 마지 막으로 삽입된 프로쎄 스 
서술자를 가리킨다. 



그림 3-3. 프로쎄스목록 

프로쎄스목록에 프로쎄스서술자를 추가하거 나 제거할 때 에는 각각 SETJLINKS 와 
REMOVE_LINKS 마크로를 사용한다. 이 마크로는 프로쎄스사이의 친족관계를 관계 하 
면서 동작한다. (뒤 에 나오는《프로쎄 스간 친족관계》참고) 

또 다른 유용한 마크로토서 for_each_task 가 있다. 이 마크로는 전체 프로쎄스목록 
을 탐색하며 다음과 같이 정의한다. 

#define for_each_task (p) \ 

for( p = &init_task； (p = p->next_task) |= &init_task；) 

이 마크로는 순환을 조종하는 문장으로 핵심부프로그람작성자는 이 문장뒤에 순환에 
서 작업하는 코드를 넣는다. 여기서 init_task 프로쎄스서술자가 어떻게 목록의 머리역할 
을 수행하는지 살펴보자. 이 마크로는 init_task 를 지나 다음 작업으로 가면서 다시 
init_task 를 마주칠 때 까지 (목록이 원형 으로 되 여있는 덕 분이 다. ) 순환을 반복한다. 

4) 2중련결목록 

프로쎄스목록은 특별 한 2중련결목록이 다. Linux 핵심부는 다양한 핵심부자료구조를 
저장하는 2중련결목록 수백개를 사용한다. 

매 목록마다 목록을 초기화하고 항목을 추가하거나 삭제하고 목록을 탐색하는것과 
같은 몇가지 기본적인 연산을 실현해야 한다. 이러한 연산을 서로 다른 목록마다 따로 
만든다면 프로그람작성자의 노력과 기 억기 가 랑비되게 된다. 

따라서 Linux 핵심부에서는 list_head 라는 자료구조를 정의하여 일반적으로 사용할 
수 있는 2중련결목록을 실현한다. 이 자료구조의 next 와 prev 마당은 각각 2중련결목록 
의 다음과 이전에 있는 항목을 가리키는 지적자이다. list_head 에 있는 지적자마당은 
list_head 자료구조를 포함하고있는 전체 자료구조의 주소가 아닌 다른 list_head 마당의 
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주소를 저 장한다는 사실 이 중요하다. (그림 3-4 참고) 

LIST _ HEAD ( list _ name ) 마크로는 목록을 새 로 만든다. 이 마크로는 list_head 형 
태의 list _ name 이라는 변수를 선언한다. 이 변수는 새로 만든 목록의 약속된 첫번째 요 
소이 다. ( init _ task 가 프로쎄 스목록의 약속된 첫 번째 요소인것과 비슷하다.) 



그림 3-4. Iist_head 자료구조를 리용한 2 중련결목록 


다음 목록에 소개하는것을 비롯하여 기본적인 연산을 실현하는 여러가지 함수와 마 
크로가 있다. 

list _ add ( n , p ) 

p 가 가리 키 는 요소 바로 다음에 n 이 가리 키 는 요소를 삽입 한다. ( n 을 목록의 맨 
앞에 삽입 하려면 p 를 약속된 첫번째 요소의 주소로 지정 하면 된다.) 
list _ add_tail ( n , h ) 

약속된 첫번째 요소의 주소인 h 로 지정한 목록의 맨 끝에 n 이 가리키는 요소를 
삽입 한다. 
list_del ( p ) 

p 가 가리키는 요소를 삭제한다. (목록의 약속된 첫번째 요소를 지정할 필요가 없 

다.) 

list 一 empty ( p ) 

약속된 첫번째 요소의 주소로 지정 한 목록이 비 여있는지 검사한다. 
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list_entry (p,t, f) 

이름이 f 이고 주소가 p 인 list_head 마당을 포함한 t 형태자료구조의 주소를 반환 
한다. 

list_for_each (p, h) 

약속된 첫번째 요소의 주소 h 로 지정한 목록에 있는 요소를 차례로 살펴본 
다. (프로 쎄 스 목록에서 사용하는 for_each_task 와 비 슷하다.) 


5) TASK_RUNNING 프로쎄스목록 

CPU 에 서 실행할 새 로운 프로쎄 스를 찾을 때 핵 심 부는 실행할수 있는 프로쎄 스 
(즉 TASK_RUNNING 상태 에 있는 프로쎄스)만 고려 해야 한다. 모든 프로쎄스목록 
을 검 사하는것 은 비효률적이 므로 ’ 실 행 렬 (runqueue)’ 이 라는 TASK_RUNNING 프 
로쎄스의 원형 2 중련결목록 (doubly linked circular list) 을 도입 하였다. 실 행렬목 
록을 구현하기 위하여 프로쎄스서술자에는 listjiead 형태 인 runjist 마당이 들어 있 
다. 앞에 나온 프로쎄스목록과 마찬가지로 init_task 프로쎄스서술자가 목록의 머리역 
할을 한다. nr_running 변수는 실행 가능한 모든 프로쎄스의 개수를 담는다. 
add_to_mnquetie () 함수는 프로쎄스서술자를 목록의 맨 앞에 삽입하고 

del_from_mnqueue() 함수는 목록에서 프로쎄스서술자를 제거한다. 

move_first_mnqueue() 와 move_last_runaueue () 두 함수는 순서짜기를 할 때 사용 
하며 각각 프로쎄스서술자를 실행렬의 맨앞과 맨뒤로 옳긴다. task_on_runqueue() 함 
수는 지정 한 프로쎄스가 실행 렬에 들어있는지 검사한다. 

마지막으로 wake_up_process 0 함수는 프로쎄스를 실행가능하게 만들 때 사용한다. 
이것은 프로쎄스상태를 TASK_RUNNING 으로 만들며 add_to_runqueue () 를 호출하 
여 프로쎄스를 실행렬에 넣는다. 또한 이 함수는 프로쎄스의 동적우선순위가 현재프로쎄 
스보다(또는 SMP 체계라면 다른 CPU 에서 현재 실행중인 어떠한 프로쎄스보다) 높은 
경우 강제로 순서짜기를 호출한다. 

6) pidhash 표와 련쇄목록 

핵심부에서 PID 를 리용해서 이에 해당하는 프로쎄스서술자를 알아내야 하는 경우가 
있다. 례를 들어 kill () 체계호출을 처리하는 경우를 살펴보자. 프로쎄스 P1 이 다른 프 
로쎄스 P2 로 신호를 보내 려고 P2 의 PID 를 변수로 지정 하여 kill 0 체계 호출을 실행 한다. 
그러면 핵심부는 PID 에 해 당하는 프로쎄스서술자의 지적자를 알아낸 다음 P2 의 프로쎄 
스서 술자에 있는 대 기 중인 신호를 기 록하는 자료구조에 대 한 지 적자를 꼴어낸 다. 

이때 프로쎄스목록을 차례로 검색해서 프로쎄스서술자에 있는 pid 마당을 검사한다 
면 동작은 하겠지만 비효률적이다. 따라서 핵심부는 검색을 빠르게 하려고 입구점 
PIDHASH_SZ 개 로 구성 된 pidhash 하쉬 표를 도입 하였 다. (PIDHASH_SZ 는 보통 1024 
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로 설정한다.) 이 표입구점은 프로쎄스서술자의 지적자를 포함한다. pidjiashfn 마크로 
를 통해 PID 를 표색 인값으로 바꾼다. 

#define pid_hashfn ( x ) ((( x ) » 8) ~ ( x )) 沒 ( PIDHASH_SZ - 1)) 

하쉬함수는 PID 와 표색 인값사이 에 1:1대 응을 보장하지 않는다. 서 로 다른 두 PID 
가 갈은 표색인값으로 하쉬되면 이것을《충돌 ( colliding )》 한다고 한다. 

Linux 는 충돌을 일으키는 PID 를 다루기 위해 《련쇄 ( chaining )》 기법을 사용한다. 
매 표입 구점 은 충돌하는 프로쎄 스서 술자를 2중련결목록으로 엮 는다. 이 목록은 프로쎄 스 
서술자에 있는 pidhash _ nextd 와 pidhash_prev 마당으로 실현한다. 그림 3-5 는 목록 
두개를 가진 pidhash 표를 보여준다. PID 가 119와 26799인 프로쎄스가 표의 200번째 
요소로 하쉬 되 여 들어 가며 PID 26800은 표의 217번째 요소로 들어간다. 

어느 순간이든 체계에 있는 프로쎄스의 개수는 보통 32767( 최대 PID 값)보다 훨씬 
작기때문에 련쇄목록 (chained list ) 을 리용하여 하쉬 하는것 이 PID 를 표색 인값으로 그대 
로 변환하는것보다 낫다. 입구점 32768개로 구성된 표를 정의한다면 어느 순간이든 대 
부분의 입구점을 사용하지 않기때문에 저장공간을 랑비하게 된다. hash _ pid () 와 
unhash _ pid () 는 pidhash 표에 프로쎄스를 추가하거 나 제거 할 때 호출하는 함수이 다. 
Find _ task _ by _ pid () 함수는 하쉬표를 검색하여 지정한 PID 를 가진 프로쎄스의 프로쎄 
스서 술자지 적 자를 반환한다. (프로쎄 스를 찾지 못한다면 NULL 지 적 자를 반환한다. ) 


0 

199 



그림 3-5. 표와 련쇄목록 
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5. 프로쎄스간 친족관계 

프로그람이 생성한 프로쎄스는 서로 부모/자식관계를 가진다. 한 프로쎄스가 여 러 
자식 프로쎄 스를 만들면 자식 들은 형 제 ( s 比) ling ) 관계 가 된다. 이 런 관계 를 나타내 기 위 해 
프로쎄 스서 술자에 는 여 러 마당이 들어있 다. 프로쎄 스 0과 1은 핵 심부가 만드는 프로쎄 
스이 다. 뒤 에서 보지만 프로쎄스 l ( init ) 은 다른 모든 프로쎄스의 조상이다. 프로쎄 스 
모의 서 술자에 는 다음 마당이 들어있 다. 
p _ opp 比(원래 부모) 

P 를 만든 부모프로쎄스의 서술자는 부모프로쎄스가 더는 존재하지 않으면 프로 
쎄스 l ( init ) 의 프로쎄스서술자를 가리킨다. 따라서 월사용자가 배경프로쎄스 
(background process ) 를 시 작하고 월 을 빠져 나가면 배 경 프로쎄 스는 init 의 자식 이 
된 다. 

P_PPtr (부모) 

P 의 현재 부모(자식프로쎄스가 완료하면 신호를 받을 프로쎄스이다.)를 가리킨 
다. 이 값은 대개 p _ opptr 와 일치하지만 다른 프로쎄스가 ptraceO 체계호출을 실행 
하여 P 를 감시 하게 해 달라고 요청 한 경우처 럼 다룰수도 있다. 
p_cptr (자식) 

근의 가장 젊은 자식 즉 가장 최근에 만든 프로쎄스의 프로쎄스서술자를 가러킨다. 
p_ysprt (동생) 

근의 현재 부모가 p 를 만들기 바로 전에 만든 프로쎄스의 프로쎄스서술자를 가리 
킨 다. 

p_osptr (형) 

근의 현재 부모가 p 를 만들기 바로 전에 만든 프로쎄스의 프로쎄스서술자를 가리 
킨 다. 

그림 3-6 은 한 그룹의 프로쎄스간 부모와 형제관계를 보여준다. 프로쎄스 P 0 은 P 1, 
P 2, P 3 을, P 3 은 P 4 를 만들었다. P 0 은 p_pcptr 부터 시작하여 형제를 가리키는 
p_osptr 지적자를 리용해서 모든 자식을 다 살펴볼수 있다. 
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6. 프로쎄스조직화하기 


실 행 렬 (runqueue) 목록은 TASK_RUNNING 상태 에 있는 모든 프로쎄 스를 그롭으 
로 묶는다. 다른 상태에 있는 프로쎄스를 그룹으로 묶어야 할 때 각 상태에 따라 다르게 
다루어 야 하며 Linux 는 다음중 하나를 고론다. 

> TASK_STOPPED 나 TASK_ZOMBIE 상태에 있는 프로쎄 스는 특별히 목록으 
로 련결 하지 않는다. 정 지 상태 나 좀비 상태 에 있는 프로쎄 스는 PID 나 특정프로 
쎄스에 속한 자식프로쎄스의 련결목록을 통해서만 접근하기때문에 이 두 상태 에 
있는 프로쎄스를 그롭으로 묶을 필요가 없다. 

> TASK_INTERRUPTIBLE 이나 TASK_UNINTERRUPTIBLE 상태에 있는 
프로쎄스는 시간에 따라 여러 부류로 나눌수 있다. 이 경우 해당 프로쎄스를 빨 
리 알아내려면 프로쎄스상태만으로는 부족해서 부가적인 프로쎄스목록 즉 대기 
렬 (wait queue) 을 도입 해 야 한다. 


1) 대기렬 

핵심부는 대기 렬 (wait queue) 을 여 러 용도로 사용한다. 특히 새 치기처 리와 프로쎄 
스동기화와 관련해서 많이 사용한다. 이 주제들은 뒤에서 이야기하기로 하고 여기서는 
프로쎄스가 종종 그 어떤 사건(례를 들어 디스크 작업 이 끝나거나 어떤 체계자원을 사용 
할수 있게 되거나 정해진 시간이 지나는 등)이 일어나기를 기다려야 하는 경우에 대해서 
만 이야기한다. 대기렬은 이런 사건을 조건적으로 기다리는것을 실현한다. 프로쎄스는 
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어떤 사건이 일어 나기 를 기 다릴 때 그에 맞는 대 기렬에 들어가고 조종권을 포기한다. 따 
라서 대 기렬은 잠든 상태 에 있으며 기 다리 는 조건이 맞아떨 어질 때 핵 심부가 깨 우는 프 
로쎄스의 집합이다. 

대 기 렬은 프로쎄 스서 술자의 지 적 자를 포함하는 구조체 의 2중련결 목록으로 실현 한다. 
매 대기렬은 wait _ queue _ head _ t 형태자료구조인 《대기렬머리 (wait queue head ) ) 
로 식별한다. 

struct — wait _ queue_head { 
spinlock_t lock ； 
struct list_head task _ list ； 

}； 

typedef struct — wait _ queue_head wait _ queue _ head_t ； 

주요핵 심부함수뿐만아니 라 새 치기조종기 에서도 대 기 렬을 사용하므로 이 2중련결목 
록을 동시에 접근하여 예측할수 없는 상황에 빠지는 일이 없도록 보호해야 한다. 대기렬 
머리에 있는 lock 라는 스핀잠그기 (spin lock ) 를 사용하여 동기화를 한다. 

대기 렬 목록의 각 요소는 wait _ queue _ t 형 태 이 다. 

대 기 렬목록의 각 요소는 어 떤 사건 이 일 어 나기 를 기 다리 면서 잠들어있는 프로쎄 스를 
나타낸다. task 마당에 있는 이 프로쎄스서술자의 주소가 들어간다. 그런데 프로쎄스를 
깨울 때 대기렬에서 잠들어있는《모든》프로쎄스를 깨우는것 이 항상 좋은것은 아니 다. 

례를 들어 독점적으로 접근할수 있는 어떤 자원을 사용할수 있기를 기다리는 프로쎄 
스가 두개이상 있다고 해보자. 이 경우 대기렬에 있는 프로쎄스중 하나만 깨우는것이 적 
합하다. 그러면 깨여난 프로쎄스가 자원을 사용하고 나머지 프로쎄스는 계속 잠들어있게 
된다.(여러 프로쎄스가 깨여나서 그중 하나만 사용할수 있는 자원을 차지하려고 경쟁하 
고 결국 나머지 프로쎄스는 다시 잠든 상태로 돌아가는 문제를 피하기 위한것 이다.) 

따라서 잠든 프로쎄스는 두 종류로 나눌수 있다. 하나는 《 배타적인 프로쎄스 
(exclusive process ) > 로서 (해당 대기렬요소의 flags 마당값을 1로 설정 하여 표시한 
다.) 핵심부가 선택적으로 깨우는 프로쎄스이다. 다른 하나는《배타적이지 않는 프로쎄 
스 (nonexclusive process ) 》로서 (기 발의 값을 0으로 설정 하여 표시 한다. ) 기 다리는 
사건이 발생하면 핵심부가 항상 깨우는 프로쎄스이 다. 배타적 인 프로쎄스의 전형적 인 례 
는 한번에 한 프로쎄스에만 할당할수 있는 자원을 기 다리는 프로쎄스이다. 디스크작업 이 
끝나기 를 기 다리 는 프로쎄 스가 배 타적 이 지 않는 프로쎄 스의 례 이 다. 


2) 대기렬처리 

add _ wait _ queue () 함수는 배타적이지 않은 프로쎄스를 대기렬목록의 맨앞에 삽입 
한다. add _ wait _ queue _ exclusive () 함수는 배타적인 프로쎄스를 대기렬목록의 맨끝 
에 삽입한다. remove _ wait_queue 0 함수는 프로쎄스를 대기렬목록에서 계거한다. 
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waitqueue_active () 함수는 지 정 한 대 기 렬 목록이 비 여 있 는지 검 사한다. 

DECLARE _ WAIT _ QUEUE _ HEAD ( name ) 마크로를 리용하여 새로 대기렬을 정의 
할수 있다. 이 마크로는 name 이라는 대기렬의 머리변수를 선언하고 초기화한다. 
init _ waitqueuejiead () 함수는 미 리 동적으로 할당한 대기렬머 리변수를 초기화할 때 사 
용한다. 

어떤 조건이 맞아떨어지기를 기다리는 프로쎄스는 다음 목록에 렬거한 함수중 하나 
를 호출할수 있다. 

> sleep _ on () 함수는 현재프로쎄스에 다음작업을 한다. 

이 함수는 현재프로쎄스의 상태를 TASK _ UNINTERRUPTIBLE 로 설정하 
고 이것 을 지정한 대기렬 에 삽입 한다. 그런 다음 순서짜기 프로그람을 불러서 다른 
프로쎄스의 실행 을 재 개한다. 잠들어 있던 프로쎄스가 깨 여나면 순서짜기 프로그람 
은 sleep _ on () 에서 실행을 재개하여 프로쎄스를 대기렬에서 제거한다. 

> interruptibl _ sleep _ on () 은 현재프로쎄스의 상태를 TASK _ 

UNINTERRUPTIBLE 이 아닌 TASK _ INTERRUPTIBLE 로 설정하여 신호 
를 수신해도 프로쎄스가 깨여날수 있게 한다는 점을 제외하고 sleep _ on () 과 똑 
같다. 

> sleep _ on _ timeout () 와 interruptible _ sleep _ on _ timeout () 함수는 앞에 나온 
함수와 비슷하지만 시간이 얼마나 지나면 핵심부가 프로쎄스를 깨우겠는가도 지 
정할수 있다. 이것을 위해 이 함수는 scheduleO 대신 schedule _ timeout () 함 
수를 호출한다. 

> Linux 2. 6에서 도입한 wait _ event 와 wait _ event _ interrup 仕 ble 마크로는 지 
정한 조건이 참이 될 때까지 이것을 호출한 프로쎄스를 대기렬에서 잠들게 한다. 

례를 들어 wait _ event _ interruptible ( wq , condititon ) 마크로는 다음과 같은 
코드로 확장된다. 

int _ret = 0； 
if ( ! ( condition )) { 

DEFINE_WAIT (_ wait ) : 


for (: ；) { 

prepare _ to_wait (& wq , & _ wait , TASK—INTERRUPTIB 
LE )； 

if ( condition ) 
break ； 

if (! signal_pending ( current )) { 
scheduleO : 
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continue ； 

} 

ret = - ERESTARTSYS ； 
break ； 

} 

finish_wait (& wq , & — wait ) : 

_ ret ； 

이 마크로를 오래된 sleep _ on () 과 interrupt 比) le _ sleep _ on () 대 신 사용해 야 
한다. 그 리유는 이전 함수는 조건을 검사할수 있고 조건이 맞지 않을 때 프로쎄 
스를 원자적으로 재워서 잘 알려진 경쟁조건 (race condition ) 의 원인이 되기때 
문이다. 

앞에서 설명한 함수나 마크로를 통해 잠든 프로쎄스는 모두 배타적이지 않다. 핵심 
부는 대기렬에 배타적인 프로쎄스를 넣을 때에는 add _ wait _ queue _ exclusive () 를 직 
접 호출한다. 

대기렬에 들어간 프로쎄스는 마크로 wake _ up , wake _ up _ nr , wake _ up _ all , wa 
ke _ up _ sync , wake _ up _ sync _ nr , wake _ up _ interruptible , wake _ up_interruptibl 
e _ nr , wake _ up _ interruptible_al 1, wake _ up _ interruptible _ sync , wake _ up_inter 
ruptible _ sync _ nr 가운데서 하나를 사용하여 TASK_RUNNING 상태로 들어갈수 있 다. 

이 마크로들은 inc 1 ude \ linux \ wait . h 에 정 의 되 여 있 다. 

이 마크로 10개의 이름으로부터 매 마크로가 무슨 일을 하는지 알수 있다. 

• 모든 마크로는 TASK_INTERUPTIBLE 상태 로 잠들어 있는 프로쎄 스를 고 
려한다. 이름에 《 interruptible 》이란 문자렬을 포함하지 않은 마크로는 
TASK_UNINTERRUPTIBLE 상태에 있는 프로쎄스도 고려한다. 

• 모든 마크로는 요구한 상래 (방금 전에 설 명 한) 에 있는 모든 배 타적 이 지 않 
는 프로쎄스를 깨운다. 

• 이름에 《 nr 》 를 포함한 마크로는 지정한 개수만큼 요구한 상태에 있는 배 
타적인 프로쎄스를 깨운다. 이 개수는 마크로의 변수로 지정한다. 이름에 《 all 》 
을 포함한 마크로는 요구한 상태에 있는 모든 배타적인 프로쎄스를 깨운다. 마지 
막으로 이름에 《 nr 》 나 《 all 》 을 포함하지 않은 마크로는 요구한 상태에 있는 
배 타적 인 프로쎄스를 단 하나만 깨운다. 

• 이름에 《 sync 》 를 포함하지 않은 마크로는 깨여난 프로쎄스가 체계에서 현 
재 실행중인 프로쎄스보다 우선순위가 높은지 검사하여 필요하다면 scheduleO 함 
수를 호출한다. 이름에 《 sync 》 를 포함한 마크로는 이런 검사를 하지 않는다. 

례를 들어 wake _ up 마크로는 다음 코드조작으로 확장된다. 
void wake_up ( wait _ queue _ head_t * q ) 
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{ 

struct list_head * tmp ； 
wait _ queue_t * curr ; 

list _ for_each ( tmp , & q -> task _ list ) { 
curr = list_entry ( tmp , wait _ queue _ t , task _ list ); 
wake _ up_process ( curr -> task ) : 
if ( curr -> flags ) 

break ； 

} 

} 

list _ for _ each 마크로는 2 중련결목록 q 에 있는 모든 항목을 둘러본다. 
list _ for _ each 마크로는 다음과 같이 정의되여있다. 

#define list _ for_each ( pos , head ) 

for (pos = ( head )-> next , prefetch ( pos -> next ) : pos != ( head ); 
pos = pos -> next , prefetch ( pos -> next )) 
list _ entry 마크로는 매 항목마다 해 당 wait _ queue _ t 변수의 주소를 계산한다. 변수 
의 task 마당에 는 프로쎄 스서 술자에 대 한 지 적 자가 들어 있 어 wake _ up _ process 0를 호 
출할 때 이것을 전달한다. 깨여난 프로쎄스가 배타적인 프로쎄스라면 순환을 끝마친다. 
배타적이지 않는 프로쎄스는 항상 2중련결목록의 앞쪽에 있고 배타적인 프로쎄스는 뒤 
쪽에 있기때문에 이 함수는 항상 배타적이지 않는 프로쎄스를 깨운 후 배타적인 프로쎄 
스가 있다면 이것을 하나만 깨운다. 이렇게 깨여난 프로쎄스를 대기렬에서 제거하지 않 
는데 주의해야 한다. 프로쎄스가 깨여날 때 여전히 기다리는 조건이 맞지 않을수 있고 
그렇다면 프로쎄스는 같은 대기렬에서 다시 기다릴수도 있다. 


7. 프로쎄스자원제한 


각 프로쎄스마다 프로쎄스가 사용할수 있는 자원의 량을 지정하는 여러 자원제한 
(resource limit ) 이 있다. 이런 제한을 통해 사용자가 자원 ( CPU 와 디스크공간 등)을 
과도하게 사용하는것을 막을수 있 다. Linux 는 다음과 같은 자원제한을 지원한다. 
RLIMIT_AS 

프로쎄스주소공간의 최대크기 ( B 단위) . 핵 심부는 프로쎄스가 mallocO 나 자신의 
주소공간을 늘이는 관련함수를 호출할 때 이 값을 검사한다. 

RLIMIT_CORE 

최대핵심쏟기 ( core dump ) 파일크기 ( B 단위). 핵심부는 프로쎄스가 어떤 문제로 
죽을 때 프로쎄스의 현재등록부에 core 파일을 만들기 전에 이 값을 검사한다. 제한 
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값이 0이라면 핵심부는 이 파일을 만들지 않는다. 

RLIMIT—CPU 

프로쎄스가 사용할수 있는 최대 CPU 시간 (s 단위). 프로쎄스가 이 제한시간을 
넘 어 동작하면 핵 심부는 SIGXCPU 신호를 보내고 그래도 프로쎄스가 완료하지 않으 
면 SIGKILL 신호를 보낸다. 

RLIMIT—DATA 

최 대 동적 기 억 구역 크기 ( B 단위 ) . 핵 심 부는 프로쎄 스의 동적 기 억 구역 크기 를 늘이 
기 전에 이 값을 검사한다. 

RLIMIT_FSIZE 

사용할수 있는 최대파일크기 ( B 단위). 프로쎄스가 이 값보다 큰 파일을 만들려고 
하면 핵심부는 SIGXFSZ 신호를 보낸다. 

RLIMIT_LOCKS 

최대파일잠그기개수. 핵심부는 프로쎄스가 파일에 열쇠를 걸려고 할 때 이 값을 
검 사한다. 

RLIMIT_MEMLOCK 

교환할수 없는 기억기의 최대크기 ( B 단위). 핵심부는 프로쎄스가 mlockO 나 
mlockallO 체계호출을 리용하여 기억기에서 폐지틀을 잠그기 ( lock ) 하려고 할 때 이 
값을 검사한다. 

RLIMIT-NOFILE 

최대로 열수 있는 파일서술자의 수. 핵심부는 새로 파일을 열거나 파일서술자를 
복사할 때 이 값을 검사한다. 

RLIMIT_NPROC 

사용자가 소유할수 있는 최대 프로쎄스개수(뒤에 나오는 《 cloneO , forkO , 
vfork 0 체계 호출》참고) 

RLIMIT—RSS 

프로쎄스가 소유할수 있는 최대폐지틀수. 핵심부는 프로쎄스가 mallockO 나 자 
신의 주소공간을 늘이는 관련함수를 호출할 때 이 값을 검사한다. 

RLIMIT—STACK 

최 대탄창크기 ( B 단위) 핵 심부는 프로쎄 스의 사용자방식탄창크기 를 늘이 기 전에 이 
값을 검사한다. 

자원제한은 프로쎄스서술자의 rlim 마당에 저장한다. 이 마당은 각 자원제한마다 하 
나씩 있는 rl 加 it 구조체의 배렬이다. 
struct rlimit { 

unsigned long rlim _ cur ； 
unsigned long rlim _ max ； 
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}； 

rlim_cur 마당은 자원의 현재사용제한을 나타낸다. 례를 들어 current -> 

rlim [ RLIMIT _ CPU ]. rlim _ cur 는 실행중인 프로쎄스의 현재 CPU 시간제한이다. 

rlim _ max 마당은 자원제한에 사용할수 있는 최대값이다. 사용자는 getrlimitO 와 
setrlimitO 체계호출을 리용하여 자원의 rlim _ cur 제한을 rlim _ max 까지 늘일수 있다. 
그러나 초사용자 ( superuser ) 좀 더 정확히 말하면 CAP _ SYS_REWOURCE 특성 
( capability ) 이 있는 사용자만이 rlim _ max 마당을 늘이거나 rlim _ cur 마당을 해당하는 
rlim _ max 마당보다 크게 설정할수 있다. 

대부분의 자원제한에는 보통 해당 자원에 제한이 없음을 의미하는 
RLIMIT _ INFINITY (0 x 7 ffffi 打)값이 들어있 다. (물론 핵 심 부설 계 에 따른 제 한이 나 사 
용가능한 RAM 이 나 디스크공간 등의 제 한에 따른 실제 제 한이 있 다. ) 그러 나 체 계관리 
자가 몇개의 자원을 엄격히 제 한할수도 있다. 사용자가 체계 에 가입할 때마다 핵심부는 
setrlimitO 를 호출하는 초사용자소유의 프로쎄스를 만들어 특정자원에 대한 rlim_max 
와 rlim _ cur 마당값을 줄일수 있다. 이 프로쎄스는 후에 등록가입월을 실행하고 사용자 
소유의 프로쎄스로 바권다. 사용자가 새로 만든 프로쎄스는 부모로부터 rlim 배렬의 내 
용을 상속발으므로 사용자는 체계가 지정한 제한을 넘어설수 없다. 

8. 프로쎄스절환 


프로쎄스실행을 조종하기 위하여 핵심부는 CPU 에서 실행중인 프로쎄스의 실행을 
멈추고 이전에 멈춘 다른 프로쎄스의 실행을 재개할수 있어야 한다. 이러한 동작을《프 
로쎄 스절환 (process switch ) 》또는《 작업 절환 (task switch ) > , 《 문맥 절환 (context 

switch ) 》이 라고 한다. 

1) 하드웨어문맥 

매 프로쎄스는 자신만의 주소공간이 있지만 반면에 모든 프로쎄스는 CPU 등록기들 
을 공유한다. 따라서 핵심부는 프로쎄스실행을 재개하기 전에 이 등록기들을 이전에 프 
로쎄스를 보류할 당시의 값으로 복구해 야 한다. 

이렇게 CPU 에서 프로쎄스실행을 재개하기 전에 등록기로 다시 복구해야 하는 하드 
웨 어 집 합을《 하드웨 어 문맥 (hardware context ) > 이 라고 한다. 하드웨 어 문맥 은 프로쎄 
스절환에 필요한 모든 정보를 포함하는 프로쎄스《실행문맥 (execution context ) 》의 
일 부이 다. Linux 에 서 는 프로쎄 스하드웨 어 문맥 의 일 부를 프로쎄 스서 술자에 저 장하고 일 
부는 핵심부방식의 탄창에 저장한다. 

앞으로 국부변수 prev 는 교체되여 나갈 프로쎄스의 프로쎄스서술자， next 는 이것 
을 실행 할 프로쎄 스서 술자를 가리 킨다고 가정 한다. 그렇 다면 《 프로쎄 스절환 (process 
switch )》 은 prev 의 하드웨어 문맥을 저장한 뒤 next 의 하드웨어 문맥을 교체 하는 작업 
이 라고 할수 있다. 프로쎄스절환은 매우 자주 일어 나므로 하드웨 어문맥을 저장하고 복사 
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하는데 걸리는 시간을 최소화하는 일은 매우 중요하다. 

이전 판본의 Linux 는 Intel 방식에서 제공하는 하드웨어지원을 활용하여 far jmp 명 
령 을 통해 서 프로쎄 스를 next 프로쎄 스의 작업 상태 토막서 술자의 선택 자로 절환하였 다. 
이 명령을 실행하면 CPU 는 자동적으로 이전 하드웨어문맥을 저장하고 새로운 문맥을 
적재한다. 그러나 다음과 같은 리유때문에 Linux 2. 6에서는 프로쎄스절환을 쏘프트웨 
어적으로 처리한다. 

• 일련의 mov 명령을 리용해서 프로쎄스를 절환하면 복구하는 자료가 옳바른지 더 
확실 히 통계할수 있 다. 특히 토막등록기 값을 검 사할수 있 다. 이 런 종류의 검 사는 간단 
히 far jmp 명 령을 사용하는 경우에는 불가능하다. 

• 이전 접근방법을 사용할 때 걸리는 시간과 새로운 방법을 사용할 때 걸리는 시 
간은 거의 같다. 그러나 현재프로쎄스절환코드는 앞으로 개선할수 있지만 하드웨어문 
맥으로 절환을 최적화하는것은 불가능하다. 

프로쎄스절환은 핵심부방식에서만 일어난다. 프로쎄스가 사용자방식에서 사용하던 
모든 등록기의 내용은 프로쎄스를 절환하기 전에 저장된다. 여기에는 사용자방식의 탄창 
지적자주소를 나타내는 ss 와 esp 의 내용도 포함된다. 


2) 작업상태토막 

80 x 86 구조에 는 하드웨 어 문맥 을 저 장하기 위한 《 작업 상태토막 ( TSS , Task State 
Segment ) > 이 라는 특별 한 토막이 있 다. 비록 Linux 는 하드웨 어문맥 절환을 사용하지 
않지만 체계에 있는 각 CPU 마다 별개의 TSS 를 가지도록 하고있다. 이것은 다음 두가 
지 리유때문이다. 

•80 x 86 CPU 는 사용자방식에서 핵심부방식으로 절환할 때 TSS 에서 핵심부방식의 
탄창의 주소를 가져온다. 

•사용자방식의 프로쎄스가 in 이나 out 명령을 사용하여 입출력포구에 접근하면 
CPU 는 프로쎄 스가 해 당 포구에 접 근할수 있는지 확인하려 고 TSS 에 들어있는 입 출력 
권한비 트배 치 표 ( I/O permission bitmap ) 에 접 근할수도 있다. 

좀더 정확히 말하면 프로쎄스가 사용자방식 에서 in 이 나 out 입출력명령을 사용하면 
조종기구는 다음과 갈은 일을 수행한다. 

① eflags 등록기의 IOPL 마당을 검사한다. 이 마당이 3이면 조종기구는 입출력명 
령을 실행하고 그렇지 않으면 다음 검사를 한다. 

② tr 등록기에 접근하여 현재 TSS 를 알아내고 이것을 통해 옳바른 입출력 권한비 
트배치표를 알아낸다. 

像 입출력권한비 트배 치 표에서 입출력명 령 에 지정한 입 출력포구에 해 당하는 비트를 
검사한다. 이 비트가 0이면 명령을 계속 실행하고 1인 경우 ‘일반보호오유 (general 
protection error ) ’ 례 외 를 발생 시 킨다. 
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tss_struct 구조체는 TSS 의 형태를 정의한다. init_tss 배렬은 체계에 있는 매 CPU 
마다 TSS 를 하나씩 저장한다. 프로쎄스절환을 할 때마다 핵심부는 TSS 의 몇개의 마당 
을 갱신하여 해당 CPU 의 조종기구가 필요로 하는 정보를 안전하게 가져갈수 있게 한다. 

매 TSS 에는 8 B 크기인 자신만의 《 작업상태토막서술자 ( TSSD : Task State 
Segment Descriptor ) > 가 있다. 이 서술자에 는 TSS 의 시 작위 치를 가리 키는 32 bit 
Base 마당과 20 bit Limit 마당이 있다. TSSD 의 S 기발을 0으로 설정하여 TSS 가《체계 
토막 (system segment ) ) 임 을 나타낸 다. 

type 마당은 토막이 실제로 TSS 임을 의미하는 9나 11값으로 설정된다. Intel 의 원 
래 설계에 따르면 체계에 있는 각 프로쎄스는 자신만의 TSS 를 참조해야 한다. type 마 
당의 아래 두번째 비트를《사용중인 비트 (busy bit ) 》라고 한다. 프로쎄스가 CPU 에 
서 실행중이면 이 비트는 1이고 그렇지 않으면 0이다. Linux 설계에서는 각 CPU 마다 
TSS 가 하나만 있기때문에 사용중인 비트는 항상 1이다. 

Linux 는 자신이 만든 TSSD 를 GDT 에 저 장한다. GDT 의 시 작주소는 gdtr 등록기 
에 들어있다. 각 CPU 의 tr 등록기는 해 당 TSS 의 TSSD 선택기를 포함한다. 이 등록기 
에 는 프로그람작성할수 없는 두 마당 (TSSD 의 Base 와 Limit 마당) 이 있 다. 프로쎄스는 
이 두 마당을 리용하여 GDT 에서 TSS 주소를 가져오지 않고도 TSS 에 바로 접근할수 
있 다. 

3) 比 iread 마당 

프로쎄스절환을 할 때마다 교체되여 나가는 프로쎄스의 하드웨 어문맥을 어딘가에 저 
장해야 한다. 이때 교체되여 나가는 프로쎄스가 실행을 재개할지 그러고 어떤 CPU 가 
이것을 다시 실행할지 알수 없기때문에 Intel 의 원래 설게처럼 하드웨어문맥을 TSS 에 
저장할수는 없다. 

따라서 각 프로쎄스서술자에 는 thread_struct 형태의 thread 마당。1 있다. 핵심부는 
프로쎄스를 절환할 때마다 하드웨 어문맥을 이곳에 저장한다. 

후에 보지만 이 자료구조에는 범용등록기와 부동소수점등록기를 비롯하여 대부분의 
CPU 등록기 가 들어간다. 

4) 프로쎄스절환 수행하기 

프로쎄스절환은 잘 정의한 단 한곳, 바로 schedule 0함수에서만 일어날수 있다. 
여기서는 핵심부가 어떻게 프로쎄스절환을 수행하는가에만 관심을 두겠다. 

본질적으로 모든 프로쎄스절환은 두 단계로 이루어진다. 

① 폐지대역등록부를 교체하여 새로운 주소공간을 설치한다. 이 단계는 후에 
다룬 다. 

② CPU 등록기를 비롯하여 핵심부가 새로 프로쎄스를 실행하는데 필요한 모 
든 정보를 포함하는 핵심부방식탄창과 하드웨 어문맥을 절환한다. 

다시 한번 prev 는 교체되여 나갈 프로쎄스의 서술자를， next 는 새로 실행할 프로 
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쎄스의 서술자를 가리킨다고 가정한다. 후에 보지만 prev 와 next 는 scheduleO 함수의 
국부변수이기도 하다. 

switch_to 마크로는 앞에서 언급한 프로쎄스절환의 두번째 단계를 수행한다. 이 마 
크로는 핵심부에서 가장 하드웨어의존적인 루린중의 하나이며 이 마크로가 무슨 일을 하 
는지 알려면 상당한 노력을 기울여 야 한다. 

먼저 이 마크로는 prev 와 next, last 이렇게 세 변수를 받는다. 다음은 
scheduleO 에서 이 마크로를 실제로 호출하는 코드이다. 
switch_to(prev, next, prev) : 

여기서 prev 와 next 의 역할을 쉽게 추측할수 있겠지만(국부변수 prev 와 next 를 
그대로 지정한것이다.) 세번째 변수 last 는 무엇인가? 이것을 리해하는 핵심은 어떤 프 
로쎄스절환이든 두개가 아닌 세개의 프로쎄스가 관여한다는 사실이다. 

핵심부가 프로쎄스 A 를 절환하여 프로쎄스 모를 실행한다고 하자. scheduleO 함수 
에서 prev 와 next 는 각각 A 와 B 의 서술자를 가리 킨다. switcli_to 마크로가 A 를 멈추 
자마자 A 의 실행흐름은 정지한다. 

후에 핵심부가 A 를 다시 실행 한다고 하자. 이 경우 다른 프로쎄스 C (보통은 묘와 
다른 프로쎄스)를 교체해서 내보내야 할것이다. 이때 호출하는 switch_to 마크로의 
prev 와 next 는 각각 C 와 A 를 가리킨다. A 가 실행을 재개하면 자신의 이전 핵심부방 
식 탄창을 보게 되 고 따라서 국부변수 prev 와 next 는 A 와 B 의 서술자를 가리 킨다. 그 
러면 현재프로쎄스 A 의 문맥에서 실행중인 핵심부는 C 에 대한 참조를 잃게 된다. 

switch_to 마크로의 마지막변수는 C 의 서술자의 주소를 prev 변수에 다시 넣는 역할 
을 한다. 이 기구는 함수호출중의 등록기상태를 리용한다. 마크로를 시작할 때 첫번째 
prev 변수는 국부변수 prev 의 내용으로 적재된 CPU 등록기에 해당한다. 마크로가 끝날 
때 똑같은 등록기의내용을 last 변수에, 즉 국부변수 prev 에 저장한다. 그런데 프로쎄스 
절환을 할 때 CPU 등록기는 바뀌지 않기때문에 prev 는 C 의 서술자의 주소를 받게 된 
다. (순서짜기프로그람은 C 를 다른 CPU 에서 즉시 실행해야 하는지 검사한다.) 

다음은 80x86 극소형 처 리기 에서 switch_to 마크로가 수행 하는 일에 관한 설명 이 다. 

① prev 와 next 의 값을 각각 eax 와 edx 등록기 에 저 장한다. 
movl prev, %eax 

movl next, %edx 

eax 와 edx 등록기는 각각 마크로의 prev 와 next 변수에 해 당한다. 

② prev 를 ebx 등록기로 복사한다. ebx 는 마크로에서 last 변수에 저장한다. 
movl %eax, %ebx 

殘 esi, edi, ebp 등록기 의 내 용을 prev 핵 심 부방식탄창에 저 장한다. 콤파일 러 는 
switch_to 마크로가 끝날 때 이 등록기의 값이 바뀌지 않고 남아있을것 이 라고 가정하 
기때문에 반드시 저 장해 야 한다. 
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pushl 落 esi 
pushl %edi 
pushl %ebp 

④ esp 값을 prev_>ttiread. esp 마당에 저장하여 이 마당이 prev 핵심부방식 탄창 
의 끝을 가리키게 한다. 

movl %esp, 616(%eax) 

여기서 피연산자 616(%eax) 은 주소가 eax+616 인 기억기월을 가리킨다. 

⑤ esp 를 next-thread.esp 값으로 설정한다. 지금부터 핵심부는 next 의 핵심부 
방식탄창에서 동작하므로 이 명령은 실질적으로 prev 에서 next 로 문맥절환을 수행한 
다. 프로쎄스서술자의 주소와 핵심부방식 탄창의 주소는 밀접한 관계가 있으므로 핵심 
부탄창을 바꾸는것 은 현재프로쎄 스를 바꾸는것 을 의 미 한다. 

movl 616(%edx), %esp 

後) 표식 1( 후에 자세히 설명 한다) 의 주소를 prev-Hhread. eip 로 저장한다. 교체 되 
여 나가는 프로쎄스가 후에 실행을 재개할 때 표식1이 있는 명령부터 실행한다. 
movl $lf, 612(%eax) 

項) next 의 핵 심 부방식 탄창에 next-Hhread. eip 값을 넣 는다. 이 값은 대 부분 표 
식1이 있는곳의 주소이다. 
pushl 612(%eax) 

⑧ C 함수 _ switch_to() 로 이행한다. 
jmp — switch_to 

이 함수는 이전 프로쎄스와 새 로운 프로쎄스를 나타내는 prev 와 next 를 변수 
로 받는다. 이 함수를 호출하는 방법은 일반적인 함수호출과 다르다. 
_ switch _ to () 는 prev 와 next 변수를 다른 함수처럼 탄창에서 받지 않고 앞서 저 
장한 eax 와 edx 등록기에서 받는다. 핵심부는 이 함수가 변수를 등록기에서 받을 
수 있도록 gcc 를파일러의 비표준 C 언어 확장중 하나인 _&吐 1 '比)없 6 _와 regparm 
을 사용한다. 

이 함수는 switch _ to () 마크로에서 시작한 프로쎄스절환을 완료한다. 이 함수 
에는 등록기를 참조할 때 특별한 기호를 리용하여 좀 읽기 복잡하게 작성된 확장 
inline 기호언어코드가 들어있다. 

unlazy _ fpu () 마크로코드를 실행하여 필요한 경우 FPU 와 MMX , XMM 
등록기내용을 저장한다. 

후에 보지만 문맥절환을 할 때 next 의 해 당 등록기를 복구할 필요는 없다. 

1,, 현재 CPU 에 대 한 TSS 의 espO 마당을 next->espO 으로 설정 하여 후에 
사용자방식에서 핵심부방식으로 특권준위가 바뀔 때 자동으로 이 주소가 esp 등 
록기로 들어가게 한다. 
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init_tss [ smp _ processor_id () ]. espO = next -> thread . espO ; 

smp _ processor _ id () 마크로는 현재 실행중인 CPU 의 색인값을 반환한다. 

T -. fs 와 gs 토막등록기를 각각 prev -> thread.fs 와 prev -〉 thread.gs 로 저 
장한다. 해당 기호언어명령은 다음과 같다. 
movl % fs , 620(% esi ) 
movl % gs , 624(% esi ) 

여기서 esi 등록기는 prev-〉thread 구조체를 가리킨다. 

도. fs 와 gs 토막등록기를 각각 next -> thread.fs 와 next -〉 thread.gs 에 있는 
값으로 설정한다. 이 단계는 바로 앞단계와 론리적으로 정반대이다. 해당 기호 
언어명령은 다음과 갈다. 

movl 12(% ebx ), %fs 
movl 17(% ebx ), 宅 gs 

ebx 등록기는 next-〉thread 구조체를 가리 킨다. 이 코드는 CPU 가 잘못된 
등록기값을 가지는 경우 례외를 발생시킬수 있기때문에 실제로는 훨씬 힘들다. 
이 런 가능성 을 념 두에 두고 이 코드는〈〈수선》접 근방법 을 채 택 하고있 다. 

s . next -> thread . debugreg 배 렬 에 있는 내 용으로 오유등록기 (debug 
register ) 6개를 설정한다. 이것은 next 가 보류되기 전에 오유등록기를 사용 
한 경우(즉 next -> tss . debugreg [기마당이 0이 아닌 경우)에만 수행한다. 
TSS 에 값을 써넣어 야만 이 등록기를 바물수 있다. 따라서 prev 의 해당 등록 
기를 저장할 필요는 없다. 

if (unlikely ( next->debugreg [7])) { 
loaddebug ( next , 0) ； 
loaddebug ( next , 1); 
loaddebug ( next , 2); 
loaddebug ( next , 3); 

/* 4 번 5 번은 제외 */ 
loaddebug ( next , 6) ； 
loaddebug ( next , 7); 

} 

i 그. 필요하다면 TSS 에 있는 입출력접근권한비트배치표를 갱신한다. 

next 나 prev 가운데서 하나라도 자신만의 입출력접근권한비트배치표가 있다면 
이 작업을 해 야 한다. 

if ( next -> thread . ioperm ) { 

memcpy ( init_tss [ smp _ processor_id () ]. io _ bitmap , 
next -〉 thread . io _ bitmap , 128) ； 
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init_tss [ smp _ processor _ id ()]. bitmap = 104； 

} else if ( prev -> thread . ioperm ) 

init_tss [ smp _ processor _ id ()]. bitmap = 0 x 8000； 

프로쎄 스에 맞게 바꾼 입 출력접 근권한비 트배 치 표는 프로쎄 스서 술자의 
thread . io _ bitmap 마당이 가리 키 는 완충기 에 들어 있 다. 만약 next 가 이 런 비 
트배치표를 가지고있다면 이것을 TSS 의 io _ bitaiap 마당으로 복사한다. 그렇지 
않으면 핵 심 부는 prev 가 이 런 비 트배 치 표를 가지 고있는가를 검 사하여있 다면 
비트배 치표를 무효화한다. 

H . 완료한다. 다른 함수와 마찬가지로 — switch _ to () 도 ret 기호언어명 
령을 사용하여 완료한다. 이 명령을 실행하면 CPU 는 eip 프로그람계수기를 탄 
창에 들어있는 돌아갈 주소로 설정 한다. 그런데 _ switch _ to () 함수를 호출할 
때 여 기 에 이 행 ( jump ) 명 령 을 내 렸 다. 따라서 ret 기 호언어 명 령은 돌아갈 주소 
로 switch_to 마크로가 탄창에 저 장한 표식1이 붙은 명 령(바로 다음에 나온 
다)의 주소를 발견하게 된다. next 를 처음으로 실행해서 이전에 보류한 사실 
이 없는 경우라면 ret _ from _ fork () 함수의 시작주소를 가지게 된다. 

⑨ esi , edi , ebp 등록기를 복구하는 명령 몇개 가 남았다. 이 세 명 령중 첫번 
째 명령에 1이라는 표식이 붙는다. 

1： 

popl %ebp 
popl %edi 
popl %esi 

이 pop 명령이 어떻게 prev 프로쎄스의 핵심부탄창을 사용하는지 눈여겨보자. 
순서짜기가 CPU 에서 새로 시작할 프로쎄스로 prev 를 선택하여 switch _ to 를 호 
출할 때 두번째 변수로 prev 를 넘겨줄 경우 이 명령을 실행한다. 따라서 그 순간 
의 esp 등록기 는 prev 의 핵 심 부방식탄창을 가리 킨다. 

⑩ ebx 등록기의 내용 kwitch _ to 마크로의 last 변수에 해당한다) 을 국부변수 
prev 로 복사한다. 

movl % ebx , prev 

앞서 설명한것처럼 ebx 등록기는 바로 전에 교체되여 나간 프로쎄스의 서술자 
를 가리킨다. 

9. FPU 와 MMX , XMM 등록기저장 

Intel 80486 처리기 부터 계산을 담당하는 부동소수점 계산기 구 ( FPU ) 를 CPU 에 통합 
하기 시작하였다. 특별히 제작한 비싼 소편에서 부동소수점계산을 하여왔기때문에 지금 
도《 수학보조처 리 기 ( ma 比 iema 仕 cal coprocessor ) 》라는 이 름을 사용한다. 부동소수점 


192 


透資© @資變©^ 


체 3 장. 프星 WI 스관2| 


계 산기 능은 이 전 모형 과 호환성 을 유지 하기 위 해 《 확장명 령 (escape instruction ) ) 을 
활용한다. 확장명령이란 0 xd 8 에서 Oxdf 범위에 있는 앞붙이바이트 (prefix byte ) 를 사 
용하는 명령이다. 부동소수점 명령은 CPU 에 있는 부동소수점등록기를 통해 동작하기때 
문에 프로쎄스가 확장명 령을 사용하면 부동소수점등록기의 내 용 역시 하드웨 어문맥에 들 
어간다. 

Intel 은 후기 펜리움모형부터 극소형처리기에 다매체응용프로그람의 실행속도를 높 
이기 위 한《 MMX 명 령 (MMX instructions ) > 이라는 새로운 기호언어명 령을 추가하였 
다. MMX 명령은 FPU 에 있는 부동소수점등록기를 사용한다. 이런 선택에는 프로그람작 
성자가 부동소수점명령과 MMX 명령을 혼합해서 사용할수 없다는 명백한 부족점이 있다. 
그러 나 조작체 계 를 설 계하는 사람의 립 장에 서 는 FPU 의 상태 를 저 장하는 작업 절환코드 
를 MMX 상태를 저장하는데도 그대로 사용할수 있으므로 이 새 명령을 무시할수 없다는 
우점이 있다. 

MMX 명령은 프로쎄스내부에 단일명령다중자료 ( SIMD , single-instruction 
multiple - data ) 관흐름 ( pipelind ) 을 도입하여 다매체응용프로그람의 실행속도를 높인다. 
펜리움3부터는 이런 SIMD 성능을 더 확장하여 Streaming SIMD 확장 ( extension ) 의 
략자인 《 SSE 확장》을 도입하였다. 이것은 128 bit 크기등록기 ( XMM 등록기) 8개 에 있 
는 부동소수점값을 처리하는 기능을 추가한것이다. 이 등록기는 FPU 와 MMX 등록기와 
겹치지 않기때 문에 SSE 와 FPU / MMX 명 령 을 자유롭게 섞 어서 사용할수 있다. 펜터움4 
모형에서는 SSE 2 확장이라는 다른 특징을 도입하였다. 이것은 기본적으로 더 높은 정밀 
도의 부동소수점 값을 지 원하는 SSE 의 확장이다. SSE 2 는 SSE 와 마찬가지 로 같은 
XMM 등록기를 사용한다. 

80 x 86 극소형처리기는 FPU 와 MMX , XMM 등록기를 TSS 에 자동으로 저장하지 않 
는다. 그러나 필요할 때에만 핵심부가 이 등록기를 저장할수 있도록 몇가지 하드웨어적 
인 지원을 한다. 이런 하드웨어적인 지원은 crO 등록기의 TS(Task Switching ) 기발을 
통해 이루어지며 이 기발은 다음 규칙을 따른다. 

• 하드웨 어문맥을 절환할 때마다 TS 기 발을 1로 설정 한다. 

•TS 기발을 설정한 상태에서 확장명령이나 MMX , SSE , SSE 2 명령을 실행할 
때 마다 조종기구는《 장치를 사용할수 없음 (Device not available ) > 이 라는 례외 
를 발생시킨다. 

TS 기발은 핵심부가 정말 필요한 경우에만 FPU 와 MMX , XMM 등록기를 저장하고 
복구하게 한다. 이것이 어떻게 동작하는가 알아보기 위해 프로쎄스 A 가 수학보조처리기 
를 사용한다고 가정하자. 문맥절환이 일어날 때 핵심부는 TS 기발을 1로 설정하고 부동 
소수점등록기를 프로쎄스 A 의 TSS 에 저장한다. 새로운 프로쎄스 B 가 수학보조처 리기 
를 사용하지 않으면 핵심부는 부동소수점등록기의 내용을 복구할 필요가 없다. 그러나 
묘가 확장명령이나 MMX 명령을 실행하려고 하면 CPU 는 장치를 사용할수 없다는 례외 
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를 발생시키고 해 당 조종기는 프로쎄스 B 의 TSS 에 저 장되 여있는 값을 부동수소점등록 
기로 읽어들인다. 

이제 FPU 와 MMX , XMM 등록기를 선택적으로 적재하기 위해 도입한 자료구조를 
살찌보자. i 387_ union 공용체형식의 thread . i 387 마당에 이것을 저장한다. 
union i 387 _union { 

struct i 3 8 7_ fsave_struct fsave ； 
struct i 387_ fxsave_struct fxsave ； 
struct i 387_ soft_struct soft ； 

}； 

보다싶이 이 마당은 3가지 자료구조중 하나만을 저장할수 있다. i 387_ soft _ stmct 형 
태는 수학보조처리기가 없는 CPU 모형에서 사용한다. Linux 는 쏘프트웨 어적으로 수학보 
조처리기를 흉내내서 여전히 이전의 집적소자를 지원한다. i 387_ fsave _ struct 형태는 수학 
보조처리기와 선택적으로 MMX 기구를 포함한 CPU 모형에서 사용한다. 마지막으로 
i 387_ fxsave _ struct 형태는 SSE 와 SSE 2 확장기능을 포함한 CPU 모형 에서 사용한다. 

프로쎄스서술자는 다음 두 기 발을 추가로 포함한다. 

■flags 기발에 들어 있는 PF_USEDFPU 기발은 CPU 에서 프로쎄스를 현재 실행 
할 때 FPU 나 MMX , XMM 등록기를 사용했는지 여부를 나타낸다. 

• used _ ma 比 i 마당. 이 마당은 比 iread . i 387 마당에 들어 있는 값이 의미가 있는지 
나타낸다. 다음 두 경 우에 이 기 발을 0으로 설정 한다. (의미 가 없 다고 표시 한다. ) 

-프로쎄스가 execveO 체계호출을 실행하여 새 프로그람을 실행하기 시작할 
때 절대로 이전 프로그람으로 조종권이 되돌아가지 않기때문에 현재 thread . i 387 
에 저장된 자료는 다시 사용하지 않는다. 

-사용자방식에서 실행하던 프로쎄스가 신호조종기함수를 실행하기 시작할 때 
신호조종기 는 프로그람실 행흐름측면 에 서 보면 비동기적 이기때 문에 신호기조종기 에 
부동소수점등록기는 아무 의미가 없다. 핵심부는 신호기를 실행하기 전에 
thread . i 387 에 부동소수점등록기를 저장하고 조종기가 끝난 후에 이것을 복구한 
다. 따라서 신호기조종기에서는 수학보조처리기를 사용할수 있으나 정상적인 프로 
그람실행 과정 에 서 시 작한 부동소수점계 산을 계 속할수는 없 다. 

앞에서 설명한것처럼 _ switch _ to () 함수는 교체되여 나가는 프로쎄스의 프로쎄스서 
술자를 변수로 지정하여 unlazy_fpu 마크로를 실행한다. 이 마크로는 prev 의 
PF _ USEDFPU 기발을 검사한다. 기발이 1이면 실행할 때 FPU 나 MMX , SSE , SSE 2 
명 령 을 사용한것 이 므로 하드웨 어 문맥 을 저 장해 야 한다. 
if ( prev->flags & PF _ USEDFPU ) 
save _ init_fpu ( prev ) : 

save _ init _ fpu0 함수는 다음 작업을 수행 한다. 
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■ FPU 등록기의 내용을 prev 프로쎄스서술자에 저장하고 FPU 를 다시 초 
기화한다. CPU 가 SSE / SSE 2 확장을 사용하면 XMM 등록기의 내용도 저장하고 
SSE / SSE 2 기구를 다시 초기화한다. 강력한 기호언어명령 몇개를 사용해서 이 
모든 일을 할수 있다. 

CPU 가 SSE / SSE 2 확장을 사용하면 다음과 같이 한다. 
asm volatile ( "fxsave %0； fnclex ” 

: “= m ” ( tsk -> thread . i 387. fxsave )) : 

그렇지 않으면 다음과 같이 한다. 

asm volatile ( “fnsave %0； fwait " 

: “= m ” ( tsk -> thread . i 387. fsave )) : 

• prev 의 PF _ USEDFPU 기발을 지운다. 
prev->flags &= ~ PF _ USEDFPU ； 

• sttO 마크로를 사용하여 crO 의 TS 기발을 1로 설정한다. 이것은 실질적으로 
다음과 같은 기호언어명령으로 확장한다. 
movl % crO , %eax 
orl $8, %eax 
movl % eax , %crO 

프로쎄 스가 실 행 을 재 개 하자마자 부동소수점 등록기 의 내용을 복구하지 는 않는다. 그 
러나 unlazy _ fpu () 마크로에서 crO 의 TS 기발을 1로 설정했기때문에 프로쎄스가 확장 
명령이나 MMX , SSE , SSE 2 명령을 처음으로 실행하려하면 조종기구는《장치를 사용 
할수 없 음》례 외 를 발생 시 키 고 핵 심 부는 (정 확히 말해 서 이 례 외 를 처 리 하는 례 외 조종기 ) 
math _ state_restore () 함수를 실 행 한다. 

프로쎄스가 FPU 나 MMX , SSE / SSE 2 명령을 실행하고있으므로 이 함수는 
PF _ USEDFPU 기 발을 1 로 설 정 한다. 나가서 crO 의 TS 기 발을 0으로 설 정 하여 앞으로 
프로쎄스가 FPU 나 MMX , SSE / SSE 2 명 령을 실행해도《장치를 사용할수 없음》례외를 
더는 발생시키지 않게 한다. thread . i 387 마당에 저장한 자료가 유효하면 
restore _ fpu () 함수는 부동소수점등록기에 적절한 값을 넣는다. 이를 위해 CPU 가 SSE 
나 SSE 2 를 지원하는지 여부에 따라 fxrstor 나 打 stor 기호언어명령을 사용한다. 반대로 
比 iread . i 387 마당에 저장한 자료가 유효하지 않으면 FPU / MMX 기구를 다시 초기화하고 
모든 등록기를 지운다. SSE / SSE 2 기구를 다시 초기화하는것은 XMM 등록기에 값을 적 
재하는것으로도 충분하다. 

10. 프로쎄스생성 

Unix 조작체계는 사용자의 요구에 응해서 많은 프로쎄스를 생성한다. 례를 들어 월 
프로쎄스는 사용자가 명령을 입력할 때마다 쉘의 복사본을 실행하는 새로운 프로쎄스를 
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만든다. 

전통적인 Unix 체계는 모든 프로쎄스를 같은 방식으로 다루는데 부모프로쎄스가 보 
유한 자원을 복사하여 자식프로쎄스에 복사본을 주는것이다. 이런 방식은 부모프로쎄스 
의 모든 주소공간을 복사해 야 하므로 프로쎄스생성 이 매우 느리고 비 효률적 이 다. 자식프 
로쎄스는 부모에서 상속받은 모든 자원을 읽거나 고칠 필요가 거의 없다. 많은 경우 곧 
바로 execveO 를 호출하여 힘들여 복사한 주소공간을 지워 버린다. 

최근 Unix 핵심부는 이 문제를 3가지 방식으로 해결한다. 

•《쓰기복사》기법은 부모와 자식이 모두 똑같은 물러적인 패지를 읽을수 있게 
한다. 둘중 하나라도 패지에 쓰려고 하면 핵심부는 쓰려는 프로쎄스에 새로 물리적 
인 페지를 할당하여 내용을 복사해준다. 이 기법을 실현하는 방법은 후에 자세히 설 
명 한다. 

■ 가벼운 프로쎄스 (lightweight process ) 는 부모와 자식 모두 페지표(즉 전체 
사용자방식주소공간)와 열 린파일목록，신호기배렬을 비롯하여 프로쎄스마다 할당하 
는 많은 핵심부자료구조를 공유한다. 

• vforkO 체계호출은 부모의 기억기주소공간을 공유하는 프로쎄스를 만든다. 
부모프로세가 자식이 필요로 하는 자료를 덮어쓰지 않도록 자식프로쎄스가 완료하거 
나 새로운 프로그람을 실행하기 전까지 부모프로쎄스를 차단한다. vforkO 체계호출 
은 후에 자세히 설명한다. 

1) clone(), fork(), vforkO 체계호출 

Linux 에서는 cloneO 함수를 호출하여 가벼운 프로쎄스를 생성한다. 

이 함수는 변수 4개를 받는다. 
fn 

새 로운 프로쎄스로 실행할 함수를 지정 한다. 이 함수에서 돌아오면 자식 프로쎄 
스는 완료한다. 이 함수는 자식프로쎄스의 완료값을 나타내는 정수를 반환한다. 
arg 

fn () 함수에 전달할 자료를 가리 킨다. 
flags 

잡다한 정보. 아래바이트는 자식프로쎄스가 완료할 때 부모프로쎄스에 전달할 
신호번호를 나타낸다. 보통 이 신호는 SIGCHLD 다. 나머지 3 B 는 복제와 관련한 기 
발로 부모와 자식프로쎄스사이에서 공유할 자원을 지정한다. 매 기발의 의미는 다음 
과 갈다. 

CLONE—VM 

기억기서술자와 모든 폐지표를 공유한다. 

CLONE_FS 

뿌리등록부와 현재 작업등록부를 나타내는 표와 《 umask 》 라고 부르는 새 
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로 만들어지는 파일의 초기접근권한의 비트마스크 ( bitmask ) 값을 공유한다. 
CLONE_FILES 

열린 파일을 나타내 는 표를 공유한다. 

CLONE_PARENT 

새로 만들어지는 자식프로쎄스의 부모를(프로쎄스서술자에 있는 p _ pptr 와 
p _ opptr 마당) 이 함수를 호출하는 프로쎄스의 부모로 설정한다. 

CLONE_PID 

PID 를 공유한다. 

CLONE_PTRACE 

ptraceO 체 계 호출을 리 용하여 부모프로쎄 스를 추가하고있 다면 자식 프로쎄 스 
역시 추적할수 있다. 

CLONE—SIGHAND 

신호조종기를 나타내는 표를 공유한다. 

CLONE_THREAD 

자식프로쎄스를 부모프로쎄스와 같은 스레드그를에 넣고 자식프로쎄스의 
tgid 마당도 이 에 따라 설 정 한다. 이 기 발을 지 정하면 CLONE_PAREANT 역 시 
설정된다. 

CLONE_SIGNAL 

CLONE _ SIGHAND 와 CLONE _ THREAD 를 동시에 지정 한것과 같다. 따 
라서 다중 스레드 응용프로그람에 있는 모든 스레드 에 신호를 보내는것이 가능하다. 
CLONE—VFORK 

vforkO 체 계 호출에 서 사용한다. 
child_stack 

자식 프로쎄 스의 esp 등록기 에 저 장할 사용자방식 탄창지 적 자를 가리 킨다. 이 값이 
0 이면 핵심부는 현재 부모프로쎄스의 탄창지적자로 자식프로쎄스의 탄창지적자를 설 
정 한다. 따라서 부모와 자식은 일시적으로 똑갈은 사용자방식탄창을 공유한다. 그러 
나《 쓰기 복사》기 구때 문에 두 프로쎄스중 하나라도 탄창의 내 용을 바꾸러 고 하자마 
자 별도의 복사본을 가지제 된다. 그러 나 자식프로쎄스가 부모와 똑같은 주소공간을 
공유하는 경우라면 이 변수는 null 이 아닌 값이여야 한다. 

cloneO 은 실제로는 C 서고에 정의된 일종의 래퍼함수이며 프로그람작성자에게는 
숨겨있는 Linux 의 cloneO 체계호출을 사용한다. 이 체계호출은 flags 와 child_stack 
변수만 받는다. 새 프로쎄스는 항상 체계호출을 실행한 직후에 있는 명령부터 실행하기 
시작한다. cloneO 함수는 체계 호출에서 돌아오면 자신이 부모프로쎄스인지 자식프로쎄 
스인지를 검사하여 자식 인 경우 fn () 함수를 실행 한다. 

Linux 는 cloneO 체계호출을 리용하여 전통적인 forkO 체계호출을 실현한다. 이때 
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flags 변수에 SIGCHLD 신호와 함께 다른 clone 기발은 지정 하지 않으며 child_stack 변 
수에 0을 지정한다. 

Linux 는 앞절에서 설명한 전통적인 vforkO 체계호출 역시 cloneO 체계호출을 리 
용하여 실현한다. 첫번째 변수에 SIGCHLD 신호와 함께 CLONE_VM 과 
CLONE_VFORK 기 발을 지 정 하며 두번째 변수에 0을 지 정 한다. 

cloneO 이나 forkO , vforkO 체계호출을 실행하면 핵심부는 do _ fork () 함수를 호 
출하며 이 함수는 다음과 같은 단계를 수행한다. 

① CLONE_PID 기발을 지정한 경우 do _ fork () 함수는 부모프로쎄스의 PID 가 
0 인지 검 사한다. 0이 아니 라면 오유코드를 돌려 준다. 《 교환기 ( swapper ) 》프로쎄 
스만이 CLONE_PID 를 설정할수 있다. 이것은 다중처 리기체 계를 초기화하는데 필요 
하다. 

② alloc _ task _ struct () 함수를 호출하여 새 로운 프로쎄 스의 프로쎄 스서 술자와 
핵 심 부방식 탄창을 담을 8 kB 크기 의 union task _ union 기 억기 령 역을 할당한다. 

③ current 지적 자를 리 용해 부모프로쎄스서술자를 앞에서 할당받은 기 억기 령 역 
에 있는 새로운 프로쎄스서술자로 복사한다. 

④ 사용자가 새 프로쎄스를 시작하는데 충분한 자원을 보유하고있는가를 확인하 
려고 몇가지 검사를 수행 한다. 먼저 current->rlim [ RLIMIT _ NPROC ]. rlim_cur 
이 사용자소유로 있는 현재프로쎄스의 개수보다 작거나 갈으면 프로쎄스가 뿌리권한 
이 있지 않은 이상 오유코드를 돌려준다. 사용자가 소유하고있는 현재프로쎄스의 개 
수는 사용자마다 존재 하는 user_struct 자료구조에서 엄는다. 이 자료구조는 프로쎄 
스서술자의 user 마당에 있는 지적자를 통해서 찾을수 있다. 

⑤ 전체 프로쎄스의 개수가 max_threads 변수값보다 작은지 검사한다. 이 변 
수의 초기값은 체계에 있는 RAM 의 크기에 따라 다르다. 일반적인 규칙은 프로쎄스 
서술자와 핵심부방식 탄창이 물리기억기의 1/8이상을 점유하지 못하게 하는것이다. 
그러나 체계관리자는 / proc / sys / kernel / threads-max 파일에 값을 써넣어서 이것 
을 바끌수 있다. 

⑥ 부모프로쎄스가 어떤 핵심부모둘이 라도 사용하고있다면 해당 참고회수를 증 
가시킨다. 매 핵심부모둘은 자신의 참조회수를 가지며 이를 통해 사용중인 모둘을 
제거할수 있게 한다. 

© 부모프로쎄스에서 복사한 flags 마당에 있는 기발중 몇가지를 갱신한다. 

n . 프로쎄스가 초사용자권한을 사용했는지를 나타내는 PF _ SUPERPRIV 기발 
을 지운다. 

L . PF_USEDFPU 기발을 지운다. 

c . 자식프로쎄스가 아직까지 execveO 체계호출을 실행한 사실이 없음을 의미 
하는 PF_FORKNOEXEC 기 발을 설정 한다. 
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道} 이제 do _ fork () 함수는 부모프로쎄스에서 얻을수 있는것의 대부분을 얻었다. 
나머지 작업은 자식프로쎄스에 있는 자원을 설정하고 핵심부에 새로운 프로쎄스가 
탄생했음을 알려주는데 초점을 맞춘다. 먼저 get _ pid () 함수를 호출해서 자식 에 할당 
할 새 로운 PID 를 얻 는다. ( CLONE_PID 기 발을 설정 하지 않은 경 우) 

⑨ 프로쎄스의 부모관계를 나타내는 마당처럼 부모프로쎄스에서 상속할수 없는 
모든 프로쎄스서술자의 마당을 갱신한다. 

⑩ flags 변수를 리 용해서 다르게 설정 하지 않았다면 copy _ files () , copy _ 
fs (), copy _ sighand (), copy _ mm () 을 호출해서 새로 자료구조를 생성하고 해당 
부모프로쎄 스자료구조에 서 값을 복사한다. ( kernel \ fork . c ) 

copyJhreadO 를 호출해서 자식프로쎄스의 핵심부방식탄창을 clone () 체계호 
출을 실행 한 당시 CPU 등록기 에 들어있던 값으로 초기화한다. (이 값은 부모의 핵 심 
부방식탄창에 저 장되 여있 다. ) 

eax 등록기에 해당하는 마당을 0으로 만든다. 자식프로쎄스의 서술자에 있는 
Aread . esp 마당을 자식 의 핵 심 부방식 탄창의 기 본주소로 초기 화하고 比 iread.eip 마당 
에 ret _ from _ fork () 기호언어 함수의 주소를 저 장한다. copy _ ttiread () 함수는 부모프 
로쎄스에 대해 unlazy _ fpu () 를 호출하여 仕 iread . i 387 마당을 복제한다. 

© CLONE_THREAD 나 CLONE_PARENT 중 하나라도 설정하였다면 부모 
의 P _ opptr 와 p _ pptr 마당을 자식의 해당 마당으로 복제한다. 따라서 현재프로쎄스 
의 부모가 새로 만들어지는 자식프로쎄스의 부모도 된다. 기발을 설정하지 않은 경 
우 자식프로쎄스의 P_OPPTR 과 P_PTR 마당을 current 의 프로쎄스서술자주소로 
설정 한다. 

CLONE_PTRACE 기발을 설정 하지 않았다면 자식 프로쎄스서술자의 ptrace 마당 
을 0으로 설정한다. 이 마당에는 한 프로쎄스를 다른 프로쎄스가 추적할 때 사용하 
는 기발 몇개가 들어있다. 현재프로쎄스를 추적하고있더라도 자식프로쎄스는 추적하 
지 않을것이다. 

반대 로 CLONE_PTRACE 기 발을 설정 한 경우 부모프로쎄스를 추적 중인지 를 검 
사한다. 이 경우라면 자식프로쎄스 역시 추적해야 한다. 따라서 current->ptrace 에 
서 PT_PTRACED 가 설정되 여있으면 current -> p_pptr 를 자식의 해 당 마당으로 
복사한다. 

CLONE_THREAD 값을 검사한다. 이 기발을 설정한 경우 자식을 부모의 스레 
드그를에 포함하고 부모의 tgid 마당값을 해당 마당으로 복사하고 그렇지 않은 경우 
tgid 마당을 pid 마당값으로 설정한다. 

SET_LINKS 마크로를 사용하여 새로운 프로쎄스서술자를 프로쎄스목록에 삽입 
한다. 

has ： h_pidO 를 호출하여 새로운 프로쎄스서술자를 pidhash 하쉬표에 추가한다. 
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nr_ttireads 와 current->user->processes 값을 증가시 킨다. 

자식프로쎄스를 추적하고있으면 이 프로쎄스에 SIGSTOP 신호를 보내서 프로쎄 
스를 시작하기 전에 오유추적기가 먼지 이것을 살펴볼수 있게 한다. 

wake_up_process 0 를 호출하여 자식 프로쎄스서술자의 state 마당을 

TASK_RUNNING 으로 설정 하고 자식을 실행 대 기렬목록에 넣는다. 

⑫ CLONE_VFORK 기 발을 설정한 경우 부모프로쎄스를 대기렬에 넣고 자식프 
로쎄스가 자신의 기 억 기주소공간을 해제할 때 까지 (즉 자식프로쎄스가 완료하거 나 새 
로운 프로그람을 실행할 때까지) 부모프로쎄 스를 멈추게 한다. 

⑬ 자식프로쎄스의 PID 를 반환한다. 사용자방식에 있는 부모프로쎄스는 최종적 
으로 이 PID 값을 받는다. 

이제 실행가능한 상태인 완벽한 자식프로쎄스를 만들었다. 그러나 이것을 실제로 실 
행하고있지는 않다. 이 자식프로쎄스에 언제 CPU 를 할당할지는 순서짜기프로그람이 결 
정할 일이다. 언젠가는 자식프로쎄스로 절환하여 자식프로쎄스서술자에 있는 比 iread 마 
당값으로 몇개의 CPU 등록기를 설정할것이다. 특히 esp 를 thread.esp (즉 자식의 핵심 
부방식탄창의 주소)로, eip 를 ret_from_fork() 의 주소로 설정할것이다. 이 기호언어함 
수는 ret_from_sys_call() 함수를 호출하여 다른 모든 등록기를 탄창에 저장한 값으로 
복구한 후 CPU 를 사용자방식으로 돌려보낸다. 그러면 새 프로쎄스는 forkO 또는 
vforkO , cloneO 체계호출의 끝에서 실행을 시작한다. 체계호출이 반환하는 값은 eax 
에 들어있다. 이 값은 자식 일 경우 0, 부모일 경우 자식의 PID 이 다. 

자식프로쎄스는 fork 함수가 0을 반환하는것을 제외하고는 부모와 똑같은 코드를 실 
행 한다. Unix 프로그람작성 자에게는 낯익은 방식인데 응용프로그람개발자는 이 사실을 
리용해서 프로그람에 조건문을 넣어 PID 값에 따라 자식프로쎄스가 부모와 다르게 동작 
하도록 할수 있다. 

2) 핵심부스레드 

전통적 인 Unix 체계는 디스크캐쉬의 내용을 저장하고 사용하지 않는 폐지틀을 교환 
하여 내 보내 기 (swap out) 하고 망접 속을 봉사하는 등의 중요한 작업 을 주기 적 으로 실 행 
하는 프로쎄 스에 위 임 한다. 실제 로 이 러 한 작업 을 엄 격 히 바로 수행 하는것 은 비 효률적 이 
다. 대신 이것을 배경작업으로 순서짜기하면 원하는 기능과 사용자프로쎄스 모두를 좀 
더 잘 반응할것 이 다. 체 계프로쎄스중 몇 가지는 핵심부방식 에서만 동작하기때 문에 최신조 
작체계는 이러한 기능을 거치장스럽고 불필요한 사용자방식문맥을 사용하지 않는《핵심 
부스례 드 (kernel thread) 》에 위 임 한다. Linux 에 서 핵 심 부스레 드는 다음과 같은 점 에 
서 정규프로쎄스와 다르다. 

> 매 핵심부스레드는 핵심부의 특정 C 함수 하나만 실행하지만 정규프로쎄스는 체 
계호출을 통해서만 핵심부함수를 실행한다. 

> 핵 심부스레 드는 핵 심부방식 에서만 동작하지 만 정 규프로쎄스는 핵 심 부방식과 사 
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용자방식을 번갈아가며 동작한다. 

> 핵심부스레드는 핵심부스레드에서만 동작하므로 PAGE_OFFSET 보다 큰 선형 
주소만 사용한다. 반대 로 정 규프로쎄 스는 4 GB 선형 주소모두를 사용자방식 이 나 
핵심부방식에서 사용한다. 

3) 핵심부스레드생성 

kerneUhreadO 함수는 새 핵심부스레드를 만들며 다른 핵심부스레드에서만 이 함 
수를 실행 할수 있 다. 이 함수는 대부분 inline 기 호언어 (assembly language) 코드로 되 
여있다. 

4) 프로쎄스 0 

모든 프로쎄스의 조상은 《 프로쎄스 0》또는《 교환기 프로쎄스 (swapper 
process )》 라고 부르며 start _ kernel () 함수가 Linux -1- 초기화하는 과정에서 맨 바닥 
에서 만드는 핵심부스레드이 다. 이 조상프로쎄스는 다음 자료구조를 사용한다. 

• init_task_union 변수에 들어 있는 프로쎄 스서 술자와 핵 심부방식 탄창, 

init_task 와 init_stack 마크로는 각각 프로쎄스서술자와 탄창의 주소를 만든다. 

• 프로쎄 스서 술자내 의 여 러 마당에 서 가리 키 는 다음표 



- init_files 

- init_signals 

각각 다음 마크로를 통해 이 표를 초기화한다. 

- INIT_MM 

- INIT_FS 

- INIT-FILES 

- INIT_SIGNALS 

• swapperj ) g _ dir 에 들어 있는 기 본 ( master ) 페 지 대 역 등록부 
start _ kernel () 함수는 핵심부가 필요로 하는 모든 자료구조를 초기화하며 새치기를 
허용하고 《 init 프로쎄스》로 잘 알려진《프로쎄스1》이라는 다른 핵심부스레드를 생성 
한다. 

kernel _ thread ( init , NULL , CLONE_FS | CLONE_FILES | CLONE _ SIGNAL ); 
새로 만들어진 핵심부스레드는 PID 1이며 프로쎄스마다 할당하는 모든 핵심부자료 
구조를 프로쎄스0과 공유한다. 

순서짜기 프로그람이 init 프로쎄 스를 선택 하면 이 것은 initO 함수를 실행 한다. 
init 프로쎄스를 만든후 프로쎄스0은 cpu _ idle () 함수를 실행한다. 이 함수는 근본적 
으로 새치기를 허용한 상태에서 반복해서 hit 기호언어명령을 실행한다. 순서짜기프로그 
탐은 TASK _ RUNNING 상태에 있는 다른 프로쎄스가 없는 경우에만 프로쎄스 0을 선 
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택 한다. 

5) 프로쎄스 1 

프로쎄스0이 생성한 핵심부스레드는 initO 함수를 실행하고 이것은 핵심부의 초기화 
를 완료한다. initO 는 execveO 체계호출을 실행해서 실행프로그람 init 를 적재한다. 그 
결과 init 핵심부스레드는 프로쎄스마다 할당받는 자신만의 핵심부자료구조를 가진 일반 
프로쎄스로 바권다. init 프로쎄스는 조작체계의 바깥계층을 실현하는 모든 프로쎄스를 
생성하고 동작을 감시하기때문에 체계를 완료할 때까지 살아남는다. 

6) 다른 핵심부스레드 

Linux 는 그 외에도 여러 핵심부스레드를 활용한다. 그 가운데서 어떤것은 초기화 
단계에서 생성하여 체계를 완료할 때까지 실행하고 어떤것은 핵심부가 별도의 실행문맥에 
서 실행할 경우 더 좋은 성능을 내는 작업을 실행해야 할 때 《필요에 따라》생성한다. 
가장 중요한 핵심부스레드(프로쎄스0과 프로쎄스1을 제외하고)는 다음과 같다. 
keventd 

qt _ context 작업 렬 (task queue ) 에 있는 작업 을 실행 한다. 
kapmd 

고급전원관리 ( APM，Advanced Power Management ) 와 관련있는 사건을 처 
리 한다. 
kswapd 

기억기를 해제한다. 
kflushd ( bdflush 라고도 한다) 

《불결한 ( dirty )》 완충기를 디스크에 저장해서 기억기를 비운다. 
kupdated 

오래된 《 불결한》완충기를 디 스크에 기록해서 파일체 계 의 자료가 잘못될 위험 
을 줄인다. 
ksoftirqd 

소작업 ( tasklet ) 을 실행한다. 체계에 있는 매 CPU 마다 이 스레드가 하나씩 있다. 

11. 프로쎄스끝내기 

대부분의 프로쎄스는 자신이 실행하던 코드의 실행이 끝나면 《죽는다.》이런 
일이 일어나면 핵심부가 프로쎄스가 소유하던 자원(이런 자원으로는 기억기와 열린 
파일 그러고 신호기 등이 있다)을 해제할수 있도록 핵심부에 알려주어야 한다. 

프로쎄스를 완료하는 가장 일반적인 방법은 exit () 서고함수를 호출하는것이다. 
exitO 는 C 서고가 할당한 자원을 해제하고 프로그람작성자가 등록한 매 함수를 실행하 
며 _ exit () 체계호출을 실행하여 끝난다. 프로그람작성자는 명시적으로 exitO 함수를 호 
출할수도 있다. 추가로 C 를파일러는 항상 main () 함수의 마지막문장 바로 뒤에 exitO 
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함수를 호출하는 코드를 삽입한다. 

다른 경우로 핵심부가 프로쎄스를 강제로 죽일수도 있다. 이것은 보통 프로쎄스가 
자신이 처 리할수 없거 나 무시할수 없는 신호를 받거 나 어떤 프로쎄 스의 문맥 에 서 핵 심부 
방식으로 들어가 실행 하던 도중 복구할수 없는 CPU 례 외 가 발생 한 경 우에 일 어난다. 

1) 프로쎄스완료 

모든 프로쎄스완료는 do_exit() 함수가 처리하며 이 함수는 핵심부자료구조에서 완 
료하는 프로쎄스에 관한 대부분의 참조를 제거 한다. dc 匕 exitO 함수는 다음과 같은 작업 
을 한다. 

① 프로쎄스서술자의 flag 마당에 PF_EXITING 기 발을 설정 하여 프로쎄 스를 제거 하 
는중임을 표시한다. 

② 필요하면 sem_exit() 함수를 호출하여 IPC 신호기대기렬에서 프로쎄스서술자를 
제거 하고 del_timer_sync () 함수를 호출하여 동적시계대기 렬에서 프로쎄스서 술자를 제 
거한다. 

③ _ exit_mm() 과 _ exit_files, _ exit_fs () , _ exit_sighand() 함수를 호출해서 
각각 페지화와 파일체 계 , 열 린파일서술자, 신호처 리 등과 관련한 프로쎄스의 자료구조를 
점 검 한다. (kernel\exit. c) 

④ 이 함수는 이런 자료구조를 다른 프로쎄스와 더는 공유하지 않으면 이것을 제거 
하는 일도 한다. 

⑤ 프로쎄스가 사용하는 모둘의 자원참조회수를 감소시킨다. 

© 프로쎄스서술자의 exit_code 마당을 프로쎄스완료코드로 설정한다. 이 값은 
_exit() 체계호출에 넘 어온 값이거나(정상적 인 완료) 핵심부가 넘겨준 오유코드이다.(비 
정상적인 완료) 

© exit_no 仕 fy() 함수를 호출해서 부모프로쎄스와 자식프로쎄스 량쪽의 친족관계를 
갱신한다. 완료하는 프로쎄스가 만든 자식프로쎄스는 스레드그룹이 있다면 같은 그룹에 
있는 다른 프로쎄 스의 자식 이 되 고 없다면 《 init 》 프로쎄 스의 자식 이 된다. 

나아가서 exit_notify() 함수는 프로쎄스서술자의 state 마당을 TASK_ZOMBIE 로 
설정한다. 후에 좀비프로쎄스에서 어떤 일이 일어나는가를 보자. 

⑧ schedule 0 함수를 호출해서 실행할 새로운 프로쎄스를 선택한다. 순서짜기프 
로그람은 TASK_ZOMBIE 상태인 프로쎄스를 무시하기 때문에 이 프로쎄 스는 
scheduleO 함수에서 switch_to 마크로를 호출한 직후 실행을 중단한다. 

2) 프로쎄스제거 

Unix 조작체계는 프로쎄스가 핵심부에 부모프로쎄스의 PID 나 자식프로쎄스의 실행 
상태를 질의하여 이것을 알아낼수 있다. 례를 들어 프로쎄스는 특정작업을 수행하는 자 
식프로쎄스를 만든 다음 이 프로쎄스가 완료했는지를 검사하기 위해 wait () 계렬 체계호 
출을 실행할수 있다. 자식프로쎄스가 완료했으면 부모프로쎄스는 완료코드를 통해서 작 
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업을 성공적으로 수행했는지 여부를 알수 있다. 

이런 설계상의 선택때문에 Unix 핵심부는 프로쎄스가 끝난 직후에 이 프로쎄스서술 
자에 들어있는 자료를 함부로 버 릴수 없다. 오로지 부모프로쎄 스가 완료한 자식 프로쎄 스 
를 지정하여 waitO 계렬체계호출을 실행한 후에만 이 자료를 버릴수 있다. 이것이 
TASK _ ZOMBIE 상태 가 있는 리 유이 다. 프로쎄 스는 기 술적 으로는 죽었지 만 부모프로쎄 
스가 이 사실을 알 때까지 프로쎄스의 서술자를 저장하고있어 야 한다. 

부모프로쎄스가 자식프로쎄스보다 먼저 완료하면 어떻게 되는가? 이런 경우 체계가 
좀비프로쎄스로 가득 차서 사용할수 있는 task 입구점을 모두 소모해버릴수도 있을것이 
다. 그러 나 앞서 언급한대 로 이 문제는 고아가 된 모든 프로쎄스를 《 init 》 프로쎄 스의 
자식으로 만들어서 해결한다. 이런식으로 《 init 》 프로쎄스는 waitO 계렬의 체계호출을 
실행해서 자신의 합법적인 자식 프로쎄스중 하나가 완료했는지 검사하여 좀비를 없앤다. 
release _ task () 함수는 다음 과정을 통해 좀비프로쎄스의 프로쎄스서술자를 해제 한다. 

① 완료한 프로쎄 스의 소유자인 사용자가 지금까지 만든 프로쎄 스의 수를 하나 줄 
인다. 이 값은 앞에서 언급한바 있는 user _ struct 구조체에 들어 있다. 

② free _ uid () 함수를 호출하여 user _ struct 구조체의 자원참조회수를 1 줄인다. 

③ unhash _ process 0를 호출한다. ( kernel \ exit . c ) 

④ 이 함수는 다음과 갈은 작업을 수행 한다. 

nrj : hreads 변수값을 1 줄인다. 

unhash _ pid () 함수를 호출해서 pidhash 하쉬표에서 프로쎄스서술자를 제거한다. 
c , REMOVE _ LINKS 마크로를 사용하여 프로쎄스목록에서 프로쎄스서술자를 떼 
여 낸다. 

: fc ., 스레 드그를에 속해있 다면 프로쎄 스를 이 그룹에 서 제 거한다. 

© free _ task _ struct () 함수를 호출해서 프로쎄 스서술자와 핵 심부방식 탄창으로 사용 
한 8 kB 기억기령역을 해제한다. 


제 2절. 프로쎄스주소공간 

핵심부함수는 동적기 억기가 필요하면 간단하게 다음 함수중 어느 하나를 호출한다. 
형 제 체 계 알고리 듬에 서 페 지 를 할당받을 때 에 는 _ get _ free_pages () 나 alloc_pages () , 
특별한 객체나 일반적인 객체용으로 종속할당자를 사용할 때에는 kmem _ cache _ alloc () 
나 kmallocO , 불련속적인 기억기령역을 얻을 때에는 vmallocO 를 호출한다. 이 함수 
는 기억기요청을 성공적으로 처리하면 할당한 동적기억기령역의 시작위치를 나타내는 페 
지서술자의 주소나 선형주소를 반환한다. 
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이 렇게 단순한 방법 이 잘 동작하는 리유는 다음 두가지 이 다. 

• 핵심부는 조작체계에서 우선순위가 가장 높은 구성요소이다. 핵심부함수가 동 
적 기억 기 를 요청하려 면 반드시 정 당한 리 유가 있 어 야 하고 이 요청 을 더 는 뒤 로 미 
룰수 없을 때여야 한다. 

• 핵심부는 자신을 믿는다. 모든 핵심부함수는 오유가 없다고 가정하기때문에 
프로그람오유로부터 보호할 필요가 없다. 

그러나 사용자방식의 프로쎄스에 기억기를 할당하는 경우에는 상황이 완전히 달타진다. 

• 프로쎄 스가 요청하는 동적기 억 기 는 급하지 않다고 간주한다. 례 를 들어 프로 
쎄 스의 실 행파일 을 적 재하는 경 우 가까운 시 일 내 에 프로쎄 스코드가 있는 모든 패 지 
주소를 참조하지는 않을것이다. 마찬가지로 프로쎄스가 추가로 동적기억기를 엄으려 
고 mallocO 를 호출하는것은 프로쎄스가 추가로 얻은 기억기전체를 바로 사용함을 
의 미 하지 는 않는다. 따라서 일 반적 으로 핵 심부는 사용자방식 프로쎄 스에 동적 기 억 기 
를 할당하는 일을 머루려고 한다. 

• 사용자프로그람은 믿을수 없기때문에 핵심부는 사용자방식에서 프로쎄스가 일 
으킬수 있는 모든 주소오유를 잡아낼수 있도록 준비해야 한다. 

이 절에서 보지만 핵심부는 새로운 종류의 자원을 리용하여 프로쎄스에 동적기억기 
를 할당하는 일을 미룰수 있다. 사용자방식프로쎄스가 동적기억기를 요청하면 핵심부는 
폐지틀을 추가로 할당해주지 않고 선형주소의 새로운 범위를 사용할수 있는 권한을 주는 
데 이 범위는 프로쎄스주소공간의 일부가 된다. 이러한 구간을 가리켜 《기억기구역 
(memory region ) 》이 라고 한다. 


1. 프로쎄스의 주소공간 

프로쎄스의 《 주소공간 (address space ) 》은 프로쎄스가 사용할수 있는 모든 선형 
주소로 구성된다. 매 프로쎄스는 서로 다른 선형주소공간집합을 바라보며 한 프로쎄스에 
서 사용하는 주소는 다른 프로쎄스에서 사용하는 주소와 아무 관련이 없다. 후에 보지만 
선형주소구간을 추가하거 나 삭제하여 프로쎄스의 주소공간을 동적으로 바끌수 있다. 

핵 심부는 선형 주소구간의 시 작선형 주소와 길이 , 몇 가지 접 근권한을 서 술하는《 기 억 
기구역 (memory region ) ) 이 라는 자원으로 선형 주소구간을 표현한다. 효률성 을 위 해 
기억기구역의 시작주소와 길이는 모두 4096의 배수여야 한다. 따라서 매 기억기구역으 
로 구별하는 자료로 할당받은 폐지틀을 모두 채울수 있다. 다음은 프로쎄스에 새로운 기 
억기구역을 할당하는 전형적 인 상태 이 다. 

• 사용자가 콘솔에 명령을 내리면 월프로쎄스는 명령을 수행할 새로운 프로쎄스를 
만든다. 그 결과 새로 만든 프로쎄스에 새로운 주소공간 즉 일련의 기억기구역을 할당 
한다. 

• 실행중인 프로쎄스는 완전히 다른 프로그람을 적재하려 할수도 있다. 이 경우 
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프로쎄스 ID 는 바뀌지 않지 만 프로그람을 적재 하기 전에 사용하던 기 억기구역을 해제하 
고 프로쎄스에 새로운 기억기구역집합을 할당한다. 

• 실행중인 프로쎄스는 파일 (또는 파일의 일부)에 《 기억기배치 (memory 
mapping )》 를 할수도 있다. 이 경우 핵심부는 파일을 배치하기 위해 프로쎄스에 새로 
운 기억기구역을 할당한다. 

• 프로쎄스가 사용자방식탄창에 자료를 계속 추가하여 후에 탄창으로 배치한 기억 
기구역의 주소를 모두 사용해버릴수도 있다. 이 경우 핵심부는 이 기억기구역을 확장 
하겠다고 결정 할수 있다. 

• 프로쎄스는 같이 일하는 다른 프로쎄스와 자료를 공유하려고 IPC 공유 기 억기구 
역을 만들수도 있다. 이 경우 핵심부는 이러한 구조를 실현할수 있도록 프로쎄스에 새 
로운 기억기구역을 할당한다. 

• 프로쎄스는 mallocO 와 같은 함수를 리용하여 자신의 동적령역을 확장할수 있다. 
핵심부는 이에 따라 동적기억구역으로 할당한 기억기구역의 크기를 확장하겠다고 결정 
할수 있다. 

표 3-1 은 앞에서 언급한 작업과 관련한 몇가지 체계호출을 보여준다. 이 장 끝에서 
설명하는 brk () 를 제외한 나머지 체계호출은 후에 설명한다. 


표 3-1. 

기 at 기구역생성, 삭제오ᅡ 관■한 제계호 s 

체계 호출 

설 명 

brk (), 

sbrkO 

프로쎄 스의 동적 기 억 구역 크기 를 바꾼다. 

execveO 

새로운 실행파일을 적재하는데 그 결과 프로쎄스의 주소공간이 

바뀐 다. 

_ exit () 

현재 프로쎄 스를 완료하고 프로쎄 스의 주소공간을 없 앤 다. 

forkO 

새로운 프로쎄스를 생성하여 새 주소공간을 만든다. 

mmapO 

파일에 대한 기억기배치를 만들어 프로쎄스주소공간을 늘인다. 

MunmapO 

파일에 대한 기억기배치를 없애서 프로쎄스주소공간을 줄인다. 

shmatO 

공유기억기구역을 만든다. 

shmdtO 

공유기억기구역을 없앤다. 
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페지 오유례외 조종기 에 서 보지 만 핵 심 부는 프로쎄 스가 현재 소유하는 기 억기 구역 을 
반드시 파악하고있 어 야 한다. 그래 야 페 지 오유례 외 조종기 가 다음과 같은 폐 지오유가 발 
생한 잘못된 선형 주소의 두가지 류형 을 효률적 으로 구별 할수 있 다. 

■ 프로그람오유때 문에 발생한 경 우 

• 폐지틀을 할당하지 않아서 발생한 경우. 선형주소가 프로쎄 스주소공간에 들어있 
어도 이 주소에 해당하는 패지틀을 아직 할당하지 않았다. 

후자의 경 우에 해 당하는 주소는 프로쎄 스립장에 서 보면 잘못된 주소가 아니 다. 핵 심 
부는 페 지틀을 제 공한 후 프로쎄 스를 계 속 실 행하여 이 페 지오유를 처 리한다. 

2. 기억기서술자 

프로쎄스주소공간과 관련한 모든 정보는《기 억기서술자 (memory descriptor ) > 라 
는 자료구조에 들어있다. 이 구조체의 형태는 mm _ struct 고 프로쎄스서술자의 mm 마당 
이 이것을 가리킨다. 표 3-2 는 기억기서술자에 있는 마당의 항목이다. 


m 3-2. _ 기억기서셨유의 마당 


형 

마당 

설명 

struct 

vm area struct * 

mmap 

기 억기구역객체목록의 머리를 가리키는 지 

적자 

rb _ root_t 

mm_rb 

기 억 기 구역 객 체 의 빨간색 -검 은색 나무 (red 
-block tree ) 의 뿌리마디 에 대한 지적자 

Struct 

vm area struct * 

mmap_cache 

마지막으로 참조한 기 억기 구역객체를 
가리키는 지적자 

pgt_t * 

Pgd 

폐지대역등록부를 가리키는 지적자 

atomic_t 

mm_users 

2차사용회수 

atomic_t 

mm_count 

기억기구역의 수 

struct 

vw semaphore 

mmap_sem 

기억기구역의 읽기/쓰기 신호기 

spinlock_t 

page _ table_lock 

기 억 기 구역 과 페 지 표의 스핀 잠그기 

Struct list_head 

mmlist 

기 억 기 서 술자목록에 서 린 접 하는 항목을 
가리키는 지적자 

unsigned long 

start_code 

실행코드의 시작주소 
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unsigned long 

end_code 

실행코드의 끝주소 

unsigned long 

start_data 

초기화된 자료의 시작주소 

unsigned long 

end_data 

초기화된 자료의 끝주소 

unsigned long 

start_brk 

동적기억구역의 시작주소 

unsigned long 

brk 

동적기억구역의 현재 끝주소 

unsigned long 

start_stack 

사용자방식 탄창의 시 작주소 

unsigned long 

arg_start 

명령행인자의 시작주소 

unsigned long 

arg_end 

명령행인자의 끝주소 

unsigned long 

env_start 

환경변수의 시작주소 

unsigned long 

env_end 

환경변수의 끝주소 

unsigned long 

rss 

프로쎄스에 할당한 폐지틀의 수 

unsigned long 

total_vm 

프로쎄스주소공간의 크기(페지수) 

unsigned long 

locked_vm 

교체 해 내 보내 지 (swap out) 못하도록 
【잠그기를 건》페지의 수 

unsigned long 

def_flags 

기억기구역의 기본접근 기발 

unsigned long 

cpu_vm_mask 

지 연 TLB 를 위한 비 트마스크 

unsigned long 

swap_address 

교체를 하려고 마지막으로 검사한 선형 

주소 

unsigned long 

dumpable 

프로쎄 스가 기 억 기 의 핵 심 쏟기 (core dump) 
파일을 만들수 있는지를 나타내는 기발 

unsigned long 

context 

기본방식에 고유한 정보(례를 들어 80x86 
기반에서 LDT 의 주소)를 저장하는 표를 가 

리키는지적자 


모든 기억기서술자를 2 중련결목록으로 저장한다. 매 서술자는 mmlist 마당에 린접하 
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는 항목의 주소를 저장한다. 목록의 첫번째 항목은 프로쎄스 0이 초기화 단계에서 사용 
하는 기억기서술자인 init _ nun 의 mmlist 마당이다. 이 목록을 다중처리기체계에서 동시 
에 접근하는것을 막으려고 mmlist _ lock 스핀잠그기를 사용한다. 체계에 있는 기억기서술 
자의 개수는 mmlist _ nr 변수에 저장한다. 

mm_users 마당은 mm_struct 자료구조를 공유하는 가벼운 프로쎄스의 개수이다. 
min _ count 마당은 기 억기서술자의 1차사용회수이 고 mm _ users 에 있는 모든《사용자》를 
mm _ count 에서는 한 단위로 센다. 핵심부는 mm _ count 마당을 감소시킬 때마다 이 값이 
0이 되는지 검사하여 0이 되면 더는 사용하지 않는것이므로 기억기서술자를 해제한다. 

mm _ users 와 mm _ count 용도가 어떻게 다른지 례를 들어 설명한다. 두 가벼운 프 
로쎄스가 기억기서술자하나를 공유한다고 하자. 일반적으로 mm _ user 마당은 값이 2이지 
만 mm _ count 마당은 1이 다. (이것 을 소유하는 두 프로쎄스를 하나로 센다. ) 

기억기서술자를 림시로 핵심부스레드에 빌려준다면 핵심부는 mm _ count 마당을 증 
가시킨다. 이렇게 해서 두 가벼운 프로쎄스가 완료하여 mm _ users 마당이 0이 되더라도 
핵심부스레드가 이것을 사용하는 동안에는 mm _ caunt 마당이 0보다 값이 크므로 해당 
기억기 서술자를 해제하지 않는다. 핵심부는 시간이 오래 걸리는 작업을 하는 도중에 기 
억 기서 술자를 해 제 하지 않고싶 다면 mm _ count 마당대 신 mm _ usere 마당을 증가시 킬수 
있다.(바로 swap _ out () 함수가 하는 일이다.) mm _ users 마당을 증가시 키면 해당 기억 
기서술자를 소유하는 모든 가벼운 프로쎄스가 완료하더라도 mm _ count 가 0이 되지 않 
음을 보장하므로 최종결과는 똑갈다. 

새 기억기서술자를 엄을 때에는 mm _ alloc () 함수를 호출한다. 

이 기 억 기 서 술자를 종속할당자캐 쉬 에 저 장하기 때 문에 mm_alloc() 는 kmem_cache_ 
alloc 0 를 호출한 후 새로운 기억기서술자를 초기화하고 mm_count 와 mm_users 마당 
을 1로 설정한다. 

반대로 mmputO 함수는 기억기서술자의 mm _ users 마당을 감소시킨다. 이 마당이 0 
이 되 면 이 함수는 지 역 서 술자표와 기 억 기 구역 서 술자, 기 억 기 서 술자가 참조하는 페 지 표 
를 해제한 후 mmdropO 를 호출한다. 

mmdropO 함수는 mm _ count 를 감소시키고 이 값이 1이 되면 mm _ struct 자료구조 
를 해제한다. 

mmap , mm _ rb , mmlist , mmap _ cache 마당은 다음에 설명한다. 

4 핵심부스레드의 기억기서술자 

핵 심부스레 드는 핵 심부방식 에서 만 동작하기 때 문에 TASK_SIZE(PAGE_ OFFSET 
와 같다. 보통 OxcOOOOOOO) 아래에 있는 선형주소에 접근하지 않는다. 정규프로쎄스와 
는 반대로 핵심부스레드는 기 억기구역을 사용하지 않으므로 기억기서술자에 있는 대부분 
의 마당은 핵심부스레드에 의미가 없다. 

TASK_SIZE 우의 선형주소를 참조하는 페지표입구점은 항상 똑같아야 하므로 핵심 
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부스레드가 어떤 페지표집합을 사용하는지는 문제가 되지 않는다. Linux 핵심부에서 
핵심부스레드는 쓸데없이 TLB 와 패쉬를 비우지 않기 위해 정규프로쎄스의 폐지표를 그 
대로 사용한다. 이것을 위해 모든 프로쎄스서술자에는 mm 과 active _ mm 이라는 두 종류 
의 기억기서술자가 있다. 

프로쎄스서 술자의 mm 마당은 프로쎄스가 소유하는 기 억기서 술자, active_mm 마당 
은 프로쎄스가 실행중에 사용하는 기억기서술자를 가러킨다. 정규 프로쎄스의 경우 두 
마당이 같은 곳을 가리키지만 핵심부스레드는 기억기서술자를 포함하지 않으므로 mm 마 
당은 항상 NULL 이 다. 핵 심부스레 드를 선택 하여 실행할 때 active _ mm 마당을 바로 전 
에 실행하던 프로쎄스의 active _ mm 마당의 값으로 초기화한다. 

그런데 여기서 약간의 문제가 있다. 핵심부스레드에서 실행중인 프로쎄스가《높은》 
선형주소 ( TASK_SIZE 우)에 해당하는 페지표입구점을 수정하면 체계에 있는 모든 프로 
쎄스의 페지표집합에 있는 해당 입구점 또한 갱신해야 한다. 사실 핵심부방식에 있는 어 
떤 프로쎄스든지 페지표입구점을 설정하면 이 기억기배치는 핵심부방식에 있는 다른 모든 
프로쎄스에서도 유효해야 한다. 모든 프로쎄스에 있는 폐지표집합을 다루는데는 시간이 
많이 걸리므로 Linux 는 이것을 미루는 접근방법을 채택한다. 

높은 선형주소의 배치를 바물 때마다(대체로 vmallocO 나 vfreeO 를 사용하여) 핵 
심부는 기 본핵 심부페지대 역등록부 (master kernel page global directory ) 인 
swapper _ pg _ dir 를 뿌리로 하는 표준페지표를 갱신한다. ( mm \ vinalloc . c ) 

init _ mm 변수에 들어 있는 《 주기 억기서 술자 (master memory descriptor ) ) 의 
pgd 마당은 이 폐지대역등록부를 가리킨다. 

3. 기억기구역 

Linux 는 vm _ area _ struct 형태의 객체를 리용하여 기억기구역을 구현한다. 
vm _ area _ struct 구조체 내용을 보면 다음과 같다. 
struct vm _ area_struct { 

struct mm_struct * vm _ mm : /* 주소공간. */ 

unsigned long vm _ start ； /* 시작주소. */ 

unsigned long vm _ end ； 

/* 과제당 VM 령역의 련결된목록 (주소로 저장)*/ 
struct vm _ area_struct * vm _ next : 


pgprot_t vm _ page _ prot ； /* VMA 의 접속권한. */ 

unsigned long vm _ flags : 
struct rb_node vm _ rb ； 
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union { 

struct { 

struct list_head list ； 

void ^parent ； /* prio_tree_node 부모 */ 
struct vm_area_struct *head ； 

} vm_set ； 


struct prio_tree_node prio_tree_node ； 

} shared ； 

struct list_head anon_vma_node ； /* anon_vma-〉lock 묶음 */ 

struct anon_vma *anon_vma; /* page_table_lock */ 

/* 이 구조체를 넘겨주기 위한 포인터. */ 
struct vm_operations_struct * vm_ops ； 

/* 여벌복사정보: */ 
unsigned long vm_pgoff ； 
struct file * vm_file ； 
void * vm_private_data; 

#ifdef CONFIG—NUMA 

struct mempolicy *vm_policy; 

#endif 

}； 

매 기억기구역서술자는 선형주소구간을 구별한다. vm_struct 마당은 구간의 첫번째 
선형주소를, vm_end 마당은 구간이 끝난 직후의 첫번째 선형주소를 저장한다. 그러므로 
vm_end_vm_start 는 기억기구역의 길이가 된다. vm_mm 마당은 구역을 소유하는 프로 
쎄 스의 mm_struct 기 억 기 서 술자를 가리 킨 다. vm_area_struct 의 나머 지 마당은 뒤 에 서 
설명 한다. 

표 3-3 은 이 구조체에 있는 마당의 목록이다. 


표 3-3. _ 기억기구역 객체의 당 


형 

마 당 

설 명 

struct mm_start * 

Vm 一 mm 

해당 구역을 소유하는 기 억기서술자를 
가리키는 지적자 

unsigned long 

Vm_start 

구역내에 있는 첫번째 선형주소 


/* PAGE_SIZE 내에서 편위*/ 

/* 매핑 할 파일 (NULL 이 될수 있다.) */ 
/* vm_pte (공유기억) */ 

/* VMA 을 위 한 NUMA 방책 */ 
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unsigned long 

Vm_end 

구역이 끝난후의 첫번째 선형주소 

struct 

vm area strcut * 

Vm_next 

프로쎄스의 구역목록에서 다음 구역 

pgprot_t 

Vm _ page_prot 

해당 구역에 있는 페지틀의 접근권한 

unsigned long 

Vm_flags 

구역의 기발 

Rb _ node_t 

Vm_rb 

빨간색-검은색나무용 자료 

struct vm _ area_struct * 

vm _ next_share 

파일기 억기배 치목록에 있는 다음 항목 
을 가리키는 지적자 

struct 

vm area struct ** 

vm _ pprev_share 

파일기억기배치목록에 있는 이전 항목 
을 가리키는 지적자 

struct 

vm operation struct * 

vm_ops 

기억기구역의 메쏘드에 대한 지적자 

unsigned long 

vm_pgoff 

파일을 배 치하고있으면 배 치 하는 파일 
에서의 편위 

struct file * 

vm_file 

파일을 배 치 하고있으면 배 치 하는 파일 
객체를 가리키는 지적자 

unsigned long 

vm_raend 

배치하는 파일의 현재 미리읽기 
원도우의 끝 

void * 

vm _ private_data 

해 당 기 억기구역만을 위한 자료에 대한 
지적자 


한 프로쎄스가 소유하는 기억기구역들이 서로 겹치는 일은 없으며 핵심부는 기존의 
구역 바로 뒤에 새로운 구역을 할당할 때 이 구역을 합치려고 한다. 린접한 두 구역은 
접근권한이 일치하면 합칠수 있다. 

그림 3-7 에서 볼수 있는것처 럼 새로운 선형주소범위를 프로쎄스의 주소공간에 추가 
할 때 핵심부는 기존의 기억기구역을 확장할수 있는가를 검사한다. ( a 경우) 그렇지 않으 
면 새 로운 기 억기구역 을 생성 한다. ( b 경우) 마찬가지로 프로쎄 스의 주소공간에서 선형주 
소범위를 제거할 때 핵심부는 이 에 영 향을 받는 기 억기구역의 크기를 조정 한다.…경 
우) 어떤 경우에는 크기를 조정할 때 한 기억기구역이 두개의 작은 구역으로 나누이기도 
한다. ( d 경우) 
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( a ) 추가하는 구간의 접근권한이 린접한 
구역의 접근권한과 일치한다. 


( a " ) 기존구역을 
확장한다. 



( b ) 추가하는 구간의 접근권한이 
린접한 구역의 접근권한과 다르다. 


( b " ) 새로운 기억기구역을 
만든다. 



(c ) 제거하는 구간이 
기존구역의 맨 끝에 
인 다. 


(cf ) 기존구역을 
축소한다. 



(d ) 제거 하는 구간이 
기존구역의 내부에 있다. 


(cf ) 작은 두개의 구역을 
만든다. 



작업전 작업후 

주소공간 주소공간 


그림 3-7. 선형주소구간의 추가와 제거 
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vm _ ops 마당은 기억기구역의 메쏘드를 저장하는 vm _ opera 仕 ons 자료구조체를 가리 
킨다. 현재 3가지 메쏘드만을 정의한다. 

open 

기 억 기 구역 을 프로쎄 스소유의 기 억 기 구역 집 합에 추가할 때 호출한다. 

close 

기 억기구역 을 프로쎄 스소유의 기 억기구역집 합에서 제거 할 때 호출한다. 

nopage 

프로쎄스가 이 기억기구역에 속하는 선형주소이지만 RAM 에 존재하지 않는 패지에 
접 근하려 고 할 때 페 지 오유조종기 가 호출된 다. (뒤 에 나오는《 페 지 오유조종기》참고) 

1) 기 억기구역자료구조 

프로쎄스가 소유하는 모든 구역을 단순목록으로 서로 련결한다. 구역은 기억기주소 
순서 에 따라 낮은 주소부터 차례 로 목록에 나타난다. 그러 나 두 구역사이에 사용하지 않 
는 기 억기주소령역 이 들어 갈수 있다. 

매 vm _ area _ struct 의 vm _ next 마당은 목록에 있는 다음 항목을 가리킨다. 핵심부 
는 프로쎄스의 기억기서술자에 있는 mmap 마당을 통하여 기억기구역을 찾는다. 이 마당 
은 목록의 첫번째 기억기구역서술자를 가러킨다. 

기억기서술자의 map _ count 마당은 프로쎄스가 소유한 구역의 개수를 나타낸다. 프 
로쎄스는 MAX _ MAP _ COUNT 까지 서로 다른 기억기구역을 소유할수 있다.(이 값은 
보통 65536이 다.) 

그림 3-8 은 프로쎄스의 주소공간과 기억기서술자, 기억기구역목록사이의 관계를 보 
여준다. 

핵심부가 자주 하는 일들가운데서 하나는 특정선형주소를 포함하는 기억기구역을 찾 
는것이다. 목록은 정렬되여있으므로 기억기구역의 끝이 지정한 선형주소다음에 있는 구 
역을 찾는 즉시 검색을 끝마친다. 

그러나 목록을 사용하는것은 프로쎄스가 매우 적은(수십개 이하) 기억기구역을 소유 
하고있을 때에만 편리하다. 목록에서 항목을 찾고 추가 또는 삭제하는데 걸리는 시간은 
목록의 길이 에 비례한다. 


214 


透資邊 ©資變©^ 


체 3 장. 프星스관2| 



그림 3-8. 프로쌔스의 주소공간과 관련한 여러가지 서술자 

대부분의 Linux 프로쎄 스는 매우 적은 기 억 기구역만 사용하지 만 객체지 향자료기 지 
처럼 수백-수천구역을 소유하는 큰 응용프로그람도 있다. 이런 경우 기억기구역목록을 
관리하는것은 매우 비효률적이고 기억기와 관련한 체계호출의 성능은 완전히 떨어진다. 

그래서 Linux 2. 6 은《 빨간색-검은색 나무 (red-black tree) > 라는 자료구조에 기 
억기서술자를 저장한다. 빨간색-검은색나무에서 각 요소(즉 마디 (node)) 는 보통 왼쪽자 
식 (left child) 과 오른쪽자식 (right child) 이 라는 두 자식을 가진다. 나무에 있는 요소 
는 정 렬되 여있 다. 매 마디 자에 대 해 자의 왼쪽자식 을 근본으로 하는 보조나무의 모든 
요소는 자의 오른쪽자식을 근본으로 하는 보조나무 (subtree) 의 모든 요소와 N 의 이전값 
을 포함한다. (그림 3-9 참고) 마디 자체 에 적은 수자가 마디의 열쇠 값이 다. 

빨간색-검은색 나무는 다음과 갈은 4 가지 규칙을 준수해 야 한다. 

1. 모든 마디는 빨간색 이 나 검은색중의 하나이 다. 

2. 나무의 뿌리 (root) 는 검은색 이 다. 

3. 빨간 마디의 자식은 검은색 이 다. 

4 . 어 떤 마디 에서 후대잎 (leaf) 에 이르는 모든 길에는 같은수의 검은색마디 가 있 
어 야 한다. 검은 마디의 수를 셀 때 NULL 지적 자도 검은 마디로 계산한다. 

이 4 가지 규칙에 따라 n 개의 마디를 포함하는 모든 빨간색-검은색나무는 높이가 
최대 21og(n+l) 이다. 
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따라서 빨간색-검은색나무에서 요소를 찾는 작업에 필요한 수행시간은 나무크기에 
로그를 취한 값에 그대로 비례하기때문에 매우 효률적이다. 다시 말해서 기억기구역의 
수가 2배가 되 더 라도 찾는 작업을 한번만 더 반복하면 된다. 

빨간색-검은색나무는 빠르게 검색하면서 요소를 추가할 곳이나 삭제할 곳을 찾을수 
있으므로 요소의 추가와 삭제 또한 효률적이다. 새로운 마디는 빨간 마디에만 삽입해야 
한다. 추가나 삭제작업을 하다가 규칙을 파괴 하게 되면 나무에 있는 마디 몇개를 옮기거 
나 색갈을 다시 정해야 한다. 

례 를 들어 그림 3-9 ( a ) 에 나오는 빨간색-검은색나무에 값이 4인 요소를 추가한다고 
하자. 이 요소가 들어갈 적당한 위치는 열쇠값이 3인 마디의 오른쪽 자식이지만 여기에 
요소를 추가하면 열쇠값이 3인 빨간마디는 빨간마디를 자식으로 가지게 되여 규칙3을 
파피하게 된다. 규칙에 부합하기 위해 값이 3과 4, 7인 마디의 색갈을 바꾼다. 그런데 
이런 연산은 규칙 4를 파피하게 되여 알고리듬에 의해 열쇠값이 19인 마디를 뿌리로 하 
는 보조나무에 대 해 《 회전》을 실행 하여 그림 3-9 에서 ( b ) 와 갈은 빨간색-검은색나무 
를 만든다. 이 작업 은 복잡하게 보이 지 만 빨간색 -검 은색나무에 요소를 추가하고 삭제하 
는데 필요한 연산회수는 얼마되지 않는다. (나무크기에 로그를 취한 값에 정비례한다.) 

Linux 는 프로쎄스의 기억기구역을 저장하기 위해 련결목록과 빨간색-검은색나무를 
같이 사용한다. 두 자료구조는 모두 갈은 기억기구역서술자를 가리킨다. 기억기구역서술 
자를 추가하거나 삭제할 때 핵심부는 빨간색-검은색나무를 통해 이전요소와 다음요소를 
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빠르게 검 색 하고 이것 을 사용하여 련결목록을 검 색하지 않고도 련결목록을 빠르게 갱 신 
할수 있다. 

기 억기서술자의 mmap 마당은 련결목록의 머 리를 가리 킨다. 모든 기 억기구역객체 는 
목록에서 다음요소에 대한 지적자를 vm _ next 마당에 저장한다. 기 억기서술자의 mm_rb 
마당은 빨간색-검은색나무의 머리를 가리킨다. 모든 기억기구역객체는 rb _ node _ t 형의 
vm _ rb 마당에 마디의 색갈과 함께 부모와 왼쪽 자식，오른쪽 자식에 대한 지적자를 저 
장한다. 

일반적으로 특정한 주소를 포함하는 구역을 찾을 때 빨간색-검은색나무를 사용하며 
전체 구역을 검색할 때 련결목록이 효과적이다. 

2) 기억기구역접근권한 

기억기구역의 폐지와 관련된 기발을 보기로 하자. 이 기발은 vm _ area_struct 서술 
자의 vmjlags 마당에 들어 간다. (표 3-4 를 참고) 이 기발의 일부는 해 당 구역에 들어 있 
는 내용과 프로쎄스가 매 폐지에 접근할 때 필요한 권한같은 기억기구역에 있는 모든 페 
지에 대한 핵심부정보를 제공한다. 나머지 기발은 구역이 어떻게 확장하는가 등의 기억 
기구역자체를 서술한다. 


« 3-4. 가 ® 伊[구역 기발 


기발 이름 

설 명 

VM READ 

읽을수 있는 폐지 

VM 一 WRITE 

쓸수 있는 폐지 

VM EXEC 

실행할수 있는 페지 

VM SHARED 

여러 프로쎄스가 공유할수 있는 폐지 

VM—MAYREADV M READ 

기발을 설정할수 있다. 

VM MAYWRITEVM WRITE 

기발을 설정할수 있다. 

VM MAYEXECVM EXEC 

기발을 설정할수 있다. 

VM.GROWSDOWN 

이 구역은 낮은 주소쪽으로 확장할수 
있 다. 

VM—GROWSUP 

이 구역은 높은 주소쪽으로 확장할수 

있 다. 

VM SHM 

IPC 공유기억기 로 사용할수 있는 페 지 

VM_DENYWRITE 

이 구역은 쓰기용으로 열수 없는 파일 
을 배치한다. 

VM.EXECUTABLE 

이 구역은 실행파일을 배치 한다. 
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VM_LOCKED 

이 구역에 있는 폐지를 잠그어놓아서 
교체해 내보낸다. 

VM_IO 

이 구역 은 장치 의 입 출력 (I/O) 주소공 
간을 배 치 한다. 

VM_SEQ_READ 

응용프로그람은 폐지를 순차적으로 접 
근한다. 

VM_RAND_READ 

응용프로그람은 폐지를 완전히 임의의 
순서로 접근한다. 

VM_DONTCOPY 

forkO 로 새로운 프로쎄스를 만들 때 

이 구역을 복사하지 않는다. 

VM_DONTEXPAND 

mremapO 체계호출을 사용하여 구역을 
확장하는것을 금지한다. 

VM.RESERVED 

이 구역을 교체해 내보내지 않는다. 


기억기구역서술자에 들어가는 페지접근권한을 마음대로 결합할수 있다. 례를 들어 
기억기구역에 있는 폐지를 실행할수 있지만 읽지 못하게 할수도 있다. 이런 보호대책을 
효률적으로 실현하려면 기억기구역의 패지와 관련한 읽기，쓰기, 실행접근권한을 해당 
폐지표입구점으로 복사하여 페지화기구회로가 직접 권한검사를 하게 해야 한다. 다시 말 
해서 폐지접근권한은 어떤 종류의 접근을 할 때 페지오유례외가 발생해야 하는가를 지정 
하는 곳이다. Linux 는 폐지오유가 발생한 리유를 알아내는 작업을 페지오유조종기에 
위임한다. 폐지오유조종기는 폐지를 다루는 여러 전략을 실현한다. 

vm_area_struct 서술자의 vm_page_prot 마당은 페 지표기발의 초기값을 저장한 
다. (이미 본것처럼 기 억기구역에 있는 모든 폐지는 기발이 갈아야 한다.) 핵심부는 폐지 
를 추가할 때 vm_page_prot 마당값에 따라 해 당 패지표입구점의 기발을 설정한다. 

그러나 다음과 같은 리유때문에 기억기구역의 접근권한을 하드웨어적으로 사용하는 
폐지보호비트 (page protection bit) 로 변환하는것은 간단하지 않다. 

• 기억기구역의 vm_flags 마당에서 지정하는 패지접근권한에 따라 허가된 접 
근을 하더라도 폐지를 접근할 때 페지오유례외가 발생해야 하는 경우가 있다. 례 
를 들어 후에 《쓰기복사》에서 설명한것처럼 서로 다른 두 프로쎄스에 소속되였 
지 만 내 용이 똑같은 쓰기 가능한 폐 지 (VM_SHARE 기 발을 설정하지 않은)를 폐 지 
틀 하나에 저장하는 경우이다. 이런 경우 두 프로쎄스중 하나라도 폐지의 내용을 
수정하려 고 하면 례 외 가 발생 해 야 한다. 

• 80x86 처 리 기 에 서 페 지 표는 Read 八 Vrite (읽 기 /쓰기 ) 기 발과 

User/Supervisor (사용자/관리자)기발이 라는 두 보호비트만 포함한다. 게 다가 항 
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상 사용자방식프로쎄스가 기 억기구역에 들어있는 모든 폐지를 접근할수 있어 야 하 
므로 User/Supervisor 기발을 항상 설정해야 한다. 

Linux 는 80 x 86 극소형처리기의 하드웨어적인 제한을 극복하려고 다음과 같은 규칙 
을 채택하였다. 

• 읽기접근권한은 항상 실행접근권한을 포함한다. 

■ 쓰기접근권한은 항상 읽기접근권한을 포함한다. 

게다가《쓰기복사》기법을 통해 폐지틀의 할당을 제대로 연기하려고 해당 패지틀을 
여러 프로쎄스가 공유하면 안될 때마다 패지틀을 쓰기금지로 만든다. 그러므로 읽기，쓰 
기 , 실행，공유 이렇게 네 접근권한의 가능한 16개의 조합은 실제로 다음 세개로 줄어 
든다. 

■ 폐지가 쓰기와 공유접근권한을 동시에 소유하면 Read/Write 비트를 1로 설 

정 한다. 

- 폐지가 읽기나 실행접근권한을 소유하지만 쓰기나 공유권한이 없으면 

Read/Write 비트를 0으로 지운다. 

■ 폐지가 어떤 접근권한도 없으면 Present 비트를 지워서 페지에 접근할 때마다 

무조건 폐지오유례외를 발생시킨다. 그러 나 Linux 는 실제 로 폐지가 존재하지 않는 

경우와 구별하려 고 page size (페지크기)비트를 1로 설정 한다. 

protection_map 배럴은 각 접근권한조합에 대웅하는 규모가 축소된 보호비트를 저 

장한다. 

3) 기 억 기구역다루기 

기억기를 다투는 자료구조와 상태정보를 기본적으로 리해하였으므로 여기서는 기억 
기구역서술자를 가지고 동작하는 저수준함수를 보기로 하자. 이 함수는 do _ mmap () 와 
do _ inunmap () 의 실현을 간단하게 만들어주는 보조함수로 생각하면 된다. 두 함수는 각 
각 프로쎄스의 주소공간을 확장하거나 축소하는 함수로서 뒤에 나오는《선형주소구간 
할당》과《선형주소구간 해제》에서 설명한다. 여기서 다투는 함수보다 높은 수준에서 
작업하는 함수는 기억기구역을 변수로 받지 않고 선형주소구간의 시작주소와 길이 접근 
권한을 변수로 받는다. 

(1) 지정한 주소에서 가장 가까운 구역찾기 : find _ vma () 

find _ vma () 함수는 프로쎄스기억기서술자의 주소 mm 과 선형주소 addr 이라는 두개 
의 변수를 받는다. 

이 함수는 vm_end 마당이 addr 보다 큰 첫번째 기억기구역을 찾아서 해당 구역의 
서술자주소를 반환한다. 해당 구역이 존재하지 않으면 NULL 지적자를 반환한다. addr 
주소가 모든 기억기구역의 밖에 있을수도 있으므로 find _ vma () 가 선택한 구역은 반드 
시 addr 을 포함할 필요는 없다는데 류의해야 한다. 

매 기억기서술자에는 프로쎄스가 마지막으로 참조한 구역의 서술자주소를 저장하는 
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mmap _ caclie 마당이 있다. 이 마당은 지정한 선형주소를 포함하는 구역을 찾는데 걸러는 시간 
을 줄이려고 추가하였다. 프로그람에서 참조하는 주소의 린접성때문에 다음에 참조하는 주소 
가 들어있는 령역이 마지막으로 참조한 주소가 들어있던 령역과 같을 가능성 이 매우 높다. 

따라서 맨 먼저 mmap _ cache 가 가러 키는 구역 에 addr 이 들어 가는가를 검사하고 들 
어가면 해당 구역서술자의 지적자를 반환한다. 
vma = mm-〉mmap oache ； 

if (vma 技技 vma -> vm_end > addr && vma -> vm_start <= addr ) 
return vma ； 

그렇지 않으면 프로쎄스의 기억기구역을 검색해 야 한다.이 함수는 빨간색-검은색나 
무에서 기억기구역을 검색한다. 

rb_node = mm -> mm _ rb . rb _ node ； 
vma = NULL 
while ( rb _ node ) ( 

vma_tmp = rb _ entry ( rb _ node , struct vm _ area _ struct , vm _ rb ) ； 

if ( vma _ tmp -〉 vm_end > addr ) { 
vrna = vma _ tmp ； 
if ( vma _ tmp -> vm _ start <= addr ); 
break ； 

rb_node = rb _ node -〉 rb _ left ； 

} else 

rb_node = rb _ node -> rb _ right : 

} 

if ( vma ) 

mrn -〉 mmap _ cache = vma ； 
return vna ； 

이 함수는 빨간색-검은색나무의 마디를 가리키는 지적자에서 해당 기억기구역서술자 
의 주소를 알아내는 rb_entry 마크로를 사용한다. 핵심부는 find _ vma_prev 0 와 
find _ vma _ prepare () 함수도 정의 한다. ( mm \ mmap . c ) 

find _ vma _ prev () 는 변수로 지정한 선형주소 앞에 있는 기억기구역과 다음에 있는 
기 억기구역의 서술자주소를 반환한다. find _ vma _ prepare () 는 빨간색-검은색나무에서 
지정한 선형주소에 해당하는 새로운 마디를 추가할 위치를 찾아서 이전에 있는 기억기구 
역의 주소와 삽입할 잎 ( leaf ) 의 부모마디주소를 반환한다. 

(2) 지정한 구간과 겹치는 기억기구역찾기 : find_vma_intersection() 
find _ vma _ intersection () 함수는 지정 한 선형 주소구간과 겹 치는 첫 번째 기 억 기 구역 
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을 찾는다 . ( include\linux\mm. h) 

mm 변수는 프로쎄스의 기억기서술자를 가리키고 선형주소 start_addr 와 end_addr 
은 구간을 지정한다. 

vma = find_vma(mm, start_addr) ; 
if (vma && end_addr <= vma->vm_ start) 
vna = NULI ； 
return vma ； 

해 당 구역 이 존재하지 않으면 NULL 을 반환한다. 정확히 말해서 find_vma() 가 유 
효한 주소를 반환하더라도 찾은 기억기구역이 선형주소구간뒤에서 시작한다면 vma 를 
NULL 로 설정한다. 

(3) 빈 주소구간찾기 : arch _ get _ unmapped _ area () 

arch_get_iininapped_area() 함수는 프로쎄스의 주소공간을 검색하여 사용가능한 
선형 주소구간을 찾는다. (mm\mmap.c) 

변수 len 은 구간길이를 지정하고 변수 addr 로 검색을 시작할 주소를 지정할수 있다. 
이 함수는 검색이 성공하면 새 구간의 시작주소를 반환하고 실패하면 오유코드 - 
ENOMEM 을 반환한다. 

먼저 구간길 이 가 일 반적 으로 3GB 인 사용자방식선형주소의 제 한범 위안에 있는가를 
확인한다. addr 가 0 이 아니면 addr 부터 시작하는 구간을 할당하려고 시도한다. 안전하 
게 하려고 addr 의 값을 4kB 의 배수가 되도록 반올림한다. addr 가 0 이거나 이전 검색 
이 실패한 경우 사용자방식선형주소공간의 1/3 지점부터 검색을 시작한다. 

addr 부터 시작하여 addr 값을 증가시키며 반복해서 find_vma() 를 실행하여 요청한 
빈 구간을 찾는다. 검색하는 과정에서 다음과 갈은 경우가 있을수 있다. 

■ 요청한 구간이 선형주소공간에서 아직 검색하지 않은 부분보다 크 
다. (addr+len>TASK_SIZE) 요청 을 처 리 할만한 충분한 선형 주소가 없으므로 - 
ENOMEM 을 반환한다. 

. 마지막으로 검색한 구역뒤 에 있는 빈 공간의 크기가 충분하지 않 
다. (vma ! =NULL && vma->vm_start< addr+len) 다음 구역 으로 넘 어 간다. 

■ 우의 두가지 경우에 모두 해당하지 않으면 충분히 큰 빈공간을 찾은것이다. 
이때 에는 addr 를 반환한다. 

기 억 기 서 술자목록에 구역 삽입 : insert_vm_struct 0 

insert_vm_stmct() 는 기억기구역 객체목록과 빨간색-검은색나무에 
vm_area_stmct 구조체 를 삽입 한다. 

int insert_vm_struct(struct mm_struct * mm, struct vm_area_struct * 
vma) 
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struct vm _ area_struct * — vma , * prev ； 

struct rb_node ** rb _ link , * rb_parent ； 

if (! vma -> vm _ file ) { 

BUG-ON ( vma -> anon _ vma ) ； 

vma -〉 vm_pgoff = vma -〉 vm_start » PAGE _ SHIFT ; 

} 

一 vma = find _ vma_prepare ( mm , vma -> vm _ start , 技 prev , & rb _ link , 
& rb _ parent ) ； 

if ( 一 vma 技技 一 vma -> vm_start < vma -> vm _ end ) 
return -ENOMEM ； 

vma _ link ( mm , vma , prev , rb _ link , rb _ parent ); 

return 0； 

} 

이 함수는 프로쎄스기억기서술자의 주소를 가리키는 mm 과 삽입할 vm _ area_struct 
객체의 주소를 가리키는 vma 라는 두 변수를 받는다. 기억기구역객체의 vm_start 와 
vm_end 마당은 이미 초기화되 여 있어 야 한다. 이 함수는 find _ vma _ prepare () 함수를 호 
출하여 빨간색-검은색나무인 mm -〉 mm_rb 에서 vma 를 넣을 위치를 찾는다. 다음으로 
insert _ vm _ struct () 는 vma _ link () 함수를 호출한다. ( mm \ mmap . c ) 

이 함수는 다음과 갈은 기능을 수행한다. 

1. mm -> page _ table_lock 스핀잠그기를 획득한다. 

2. rnm-〉mmap 가 가리키는 련결목록에 기억기구역을 삽입한다. 

3. mm -> mm_rb 빨간색-검은색나무에 기억기구역을 삽입한다. 

4. mm -> page _ table_lock 스핀잠그기를 해제한다. 

5. mm - > map_count 계수기를 하나 증가시킨다. 

해 당 구역 에 파일 에 대 한 기 억 기배 치 가 들어있으면 추가적 인 작업 을 진행 한다. 

핵심부는 insert _ vm _ stmct () 와 똑같지만 mm 이 참조하는 기억기구역자료구조를 
수정하기 전에 어떤 종류의 잠그기도 획득하지 않는 _ insert _ vm _ start () 함수도 정의한 
다. 핵심부는 이미 해당하는 잠그기를 획득한 경우처럼 기억기구역자료구조를 동시에 접 
근하는 일이 발생할수 없다고 확신할 때 이 함수를 사용한다. 

_ vm _ imlink () 함수는 기억기서술자주소 mm 과 두 기억기구역객체주소인 vma 와 
prev 를 변수로 받는다. vma 와 prev 기 억기구역은 모두 mm 에 속해 야 하며 기 억기구역 
순서에서 prev 는 vma 앞에 있어야 한다. 이 함수는 기억기서술자의 련결목록과 빨간색- 
검은색 나무에서 vma 를 제거 한다. 
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(4) 선형주소구간할당 

여기서는 새로운 선형주소구간을 할당하는 방법에 대하여 보기로 하자. 이 작업을 
수행하기 위해 do _ mmap () 함수를 리용하여 current 프로쎄스용으로 새 기억기구역을 생 
성 하고 초기 화한다 . ( INCLUDE \ linux \ mm . h ) 성 공적 으로 할당한 후 이 기 억기 구역 을 
프로쎄 스의 다른 기 억 기구역과 합칠수 있 다. 

do _ inmap () 함수는 다음과 같은 변수를 사용한다. 
file 과 offset 

새 기 억 기 구역 이 파일 을 기 억 기 로 배 치 하는 경 우에 파일서 술자지 적 자 file 과 파일 편 
위 offset 를 사용한다. 여기서는 기억기배치가 필요하지 않으며 file 과 offset 가 모두 
NULL 이 라고 가정한다. 
addr 

빈 구간을 찾기 시작할 선형주소를 지정한다. 
len 

선형주소구간 길이이다. 


prot 

기억기구역에 들어가는 폐지의 접근권한을 지정한다. 사용할수 있는 기발은 
PROT _ RFAD 의 PROT _ WRITE , PROT _ EXEC , PROT _ NONE 이다. 처음 세 
기발은 VM _ READ 와 VM _ WMTE , VM _ EXEC 와 의미가 같다. PROT _ NONE 은 프 
로쎄스가 이런 접근권한을 하나도 소유하지 않음을 의미한다. 
flag 

기 억기구역의 나머지기 발을 지정한다. 


3 _ GROWSDOWN , ] 


D , MAP - DENYWRITE , ] 


표 3-4 에서 보여준 기발과 의미가 같다. 

MAP _ SHARED , MAP_PRIVATE 

MAP _ SHARED 는 기억기구역에 있는 폐지를 여러 프로쎄스가 공유할수 있음을 나 


타내고 MAP _ PRIVATE 는 이와 정반대의 의미이다. 두 기발은 vm _ area _ strcut 서술 
자의 VM _ SHARED 기발을 참조한다. 


MAP_ANONYMOUS 

기억기구역에 련관된 파일이 없다. 


MAP_FIXED 

구간의 시작선형주소는 addr 변수로 지정한것이여야 한다. 


MAP_NORESERVE 

여유 패지틀의 수를 미리 검사할 필요가 없다. 

do_nunap () 함수는 먼저 offset 값에 대해 몇가지 기초적인 검사를 수행 한 후 
do _ mmap_pgoff 0 함수를 실 행 한다 . ( MM \ mmap . c ) 
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새로운 선형주소구간이 디스크에 있는 파일을 배치하는것이 아니라면 

do_mmap_pgoff() 함수는 다음과 같은 단계를 수행한다. 

1. 변수의 값이 정확한지, 요청을 처리할수 있는지를 검사한다. 특히 요청을 처 
리하지 못하게 만드는 다음 조건에 해당하는지 검사한다. 

■ 선형주소구간의 길이가 0 이거나 TASK_SIZE 보다 큰 주소를 포함한다. 

■ 프로쎄스가 너무 많은 기억기구역을 배치하고있어서 mm 기억기서술자의 
map_count 마당값이 MAX_MAP_COUNT 값을 초과한다. 

■ flag 변수가 새로운 선형주소구간의 폐지를 RAM 에서 잠그도록(교환하여 
내보내지 못하도록) 지시하는데 프로쎄스가 잠그는 패지의 수가 프로쎄스서술자 
의 rlim[LIMIT_MEMLOCK]. rlim_cut 마당에 들어 있는 한계 를 초과한다. 

이 조건들가운데서 하나라도 해당하면 do _ mmap _ pgoff () 는 부값을 반환하며 
완료한다. 선형주소구간의 길이가 0이면 아무 일도 하지 않고 완료한다. 

2. 새로운 구역을 위한 선형주소구간을 얻는다. MAP_FIXED 기 발을 지정한 경 
우 addr 값에 몇가지 검사를 수행하고 그렇지 않으면 arch_get_unmapped_area() 함 
수를 호출하여 구간을 획득한다. 

if (flags & MAP_FIXED) { 

if (addr + len > TASK_SIZE) 
return -ENOMEM : 
if (addr & ~PAGE_MASK) 
return -EINVAL; 

} else 

addr = arch_get_unmapped_area (file, addr, len, pgoff, flags) : 

3. prot 와 flags 변수가 저장하는 값을 결합하여 새 기억기구역의 기발을 계산한 
다. ( calc_vm_flags() 함수는 MM\nommu. c 에 정 의 되 여 있 다. ) 

vm_flags = calc_vm_flags (prot, flags) | mm->def_flags 

| VM_MAYREAD | VM_MAYWRITE | VM—MAYEXEC; 
if (flags & MAP_SHARED) 

vm flags |= VM_ SHARED | VM—MAYSHARE; 
calc_vm_flags () 함수는 prot 에 PROT_READ, PROT_WRITE, PROT_E 
XEC 기 발이 설정되 여있는 경우에 만 vm_flags 의 VM_READ, VM_WRITE, VM 
_EXEC 기 발을 설정한다. 또한 flags 에 MAP_GROWSDOWN, MAP_DENWRIT 
E , MAP_EXECUTABLE 기발이 설정 되여 있는 경우에만 vm_flags 의 
YM_GROWSDOWN, VM_DENYWRITE, VM_EXECUTABLE 기발을 설정 한다. 
vm_flags 의 VM_MAYREAD, VM_MAYWRITE, VM—MAYEXEC 기발과 모든 
기억기구역의 기본기발인 nrni->dev_flags 에서 설정한 기발을 각각 1로 설정하고 
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기억기구역을 다른 프로쎄스와 공유해야 한다면 VM_SHARED 와 

VM_MAYSHARE 기 발도 1로 설 정 한다. 

4. find_vma_prepare() 를 호출하여 새 구간앞에 있을 기억기구역객체와 빨간 
색-검은색나무에서 새 구역의 위치를 찾는다. 

for (:; ) { 

vma = 

find_vma_prepare (mm, addr, &prev, &rb_link, &rb_parent) : 
if ( ! vma 11 vma->vm_start >= addr + len) 
break； 

if (do_munmap (mm, addr, len) ) 
return -ENOMEM : 

} 

find_vma_prepare() 함수는 새 구간과 겹치는 기억기구역이 이미 존재하는가 
도 검사한다. 이 경우 이 함수는 새 구간이 끝나기 전에 시작하는 기억기구역을 
가리 키는 NULL 이 아닌 주소를 반환한다. 이 경우 do_mmap_pgoff 0 함수는 
do_munmap() 을 호줄하여 새 구간을 제거한 후 전체 파정을 다시 시작한다. (뒤 
에 나오는《선형주소구간해제》를 참고) 

5. 새로 기억기구간을 추가함으로써 폐지주소공간의 크기인 mm->total_ 
vm«PAGE_SHIFT+len 이 프로쎄 스서 술자의 rlim[RLIMIT_AS]. rlim_cur 마당이 
지 정하는 한계 를 넘 는가를 검 사한다. 넘 는다면 오유코드 -ENOMEM 을 반환한다. 이 
검사를 1단계에서 하지 않고 여기서 하는 리유는 4단계에서 다른 기억기구역을 지웠을 
수도 있기때문이다. 

6. flags 변수가 MAP_NORESERVE 기발을 지정 하지 않으면서 새로운 기억기구 
간이 쓰기 가능한 개 인폐지를 포함해 야 하며 여유폐지틀의 수가 선형 주소구간의 크기 (페 
지단위)보다 작으면 오유코드 -ENOMEM 을 반환한다. 이 마지막 검사는 
vm_enough_memory() 함수가 수행 한다. 

7. 새 구간이 개 인용이면서 (VM_SHARED 를 지정 하지 않음) 디스크에 있는 파일 
을 배치하지 않는다면 vma_merge() 를 호출하여 이전 기억기구역이 새 구간을 포함하 
도록 확장할수 있는지 검사한다. 물론 이전 기억기구역은 vm_flags 변수에 저장하고 
있는 기발과 완전히 똑같은 기발을 소유해야 한다. 이전 기억기구역을 확장할수 있다면 
vma_merge() 는 다음에 있는 기억기구역과도 합치려고 시도한다. (이것은 새 구간이 
두 기억기구간사이의 구멍 (hole) 을 메우면서 세 구역 이 모두 갈은 기발을 소유할 때 이 
다.) 이전 기억기구간을 확장하는데 성공하면 12단계로 건너쥔다. 

8. kmem_cache_alloc() 스랩 (slab) 할당자함수를 호출하여 새 기 억기구역용으로 
vm_area_struct 자료구조를 할당한다. 
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9. 새 기 억기구역객체 ( vma 가 가리키는)를 초기화한다. 
vma -〉 vm_mm = mm ； 

vma -> vrn_start = addr ; 
vma -> vm_end = addr + len ； 
vma -〉 vm_flags = vm _ flags ； 

vma -> vm _ page_prot = protection_map [ vm_flags 技 OxOf ] ； 

// vma -> vm_ops = NULL ； 
vma -〉 vm_pgoff = pgoff ; 

// vma -> vm_file = NULL ； 

// vma -> vm _ private_data = NULL ； 

// vma -> vm_raend = 0； 

만일 VM _ GROWSDOWN | VM _ GROWSUP 기 발이 설정되 여있지 않고 다음 
VM _ DENYWRITE 기 발이 설정되 여 있는 경우 deny _ write_access 0함수를 호츨하여 
쓰기가능한 경우 vma -> vm_file = file ； 를 초기화 한다. 

deny _ write_access () 함수는 현재 파일구조체의 inode 를 얻어 쓰기 참조계수를 평 
가함으로써 이 파일을 쓸수 있는가를 검사한다. 

10. MAP _ SHARED ( VM _ SHARED ) 기발을 지정하고있으면(그리고 새 기억기구 
간이 디 스크에 있는 과일 을 배 치 하지 않으면) 이 구역 을 IPC 공유기억 기 로 사용하는것 
이다. shmem _ zero _ setup () 을 호출하여 이것을 초기화한다. 

11. vma _ link () 를 호출하여 새 구역을 기 억기구역목록과 빨간색-검은색나무에 추 
가한다(앞서 본《 기 억 기서 술자목록에 구역 삽입 : insert _ vm _ struct 0》를 참고하시 오. ) 

12. 기억기서술자의 total_vm 마당에 들어있는 프로쎄스주소공간의 크기를 증가한다. 
mm -> total_vm += len » PAGE_SHIFT ； 

— vm _ stat_account ( mm , vm _ flags , file , len » PAGE _ SHIFT ) ； 

13. VM_LOCKED 기발을 지정하고있으면 mm -> locked_vm 에 있는 잠근 폐지의 
개수를 증가시킨다. 

if ( vm_flags & VM . LOCKED ) { 

mm -> locked_vm += len » PAGE_SHIFT ； 
make _ pages_present ( addr , addr + len ) ； 

} 

make _ pages _ present () 함수를 호출하여 기억기구역에 있는 모든 폐지를 련속 
해서 할당하고 해당 페지를 RAM 에서 잠근다. make _ pages_present 0함수는 아 
래와 같이 get _ user _ pages 0를 호출한다. 

get _ user_pages () 함수는 addr 와 addr+len 사이에 있는 모든 페지의 시작하 
는 선형주소마다 각각 follows _ page () 를 반복해서 호출하여 current 의 페지표에 
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물리폐지에 대한 배치가 있는지 검사한다 . 

그런 물리폐지가 존재하지 않으면 get_user_pages() 는 handle_mm_fault() 
를 호출한다 . 

《주소공간안의 잘못된 주소처리하기》에서 보지만 handle_mm_fault() 는 한 
페지틀을 할당하고 기억기구역서술자의 vm_flags 마당에 따라 페지표입구점을 설 
정 한다 . 

14. MAP_POPULATE 기발이 지정되 여있다면 
if (flags & MAP_POPULATE) { 

up_write (&mm->mmap_sem) : 
sys_remap_file_pages(addr, len, 0, 

pgoff, flags & MAP_NONBLOCK) : 
down_write (&mm->mmap_sem) : 

} 

up_write() 함수와 down_write() 함수는 씨매포에 대한 쓰기잠그기를 해방 또는 
잠그는 함수로써 쓰기 한 후에 잠그기를 해 방하며 쓰기 에 대해 잠근다 . 

/* 

* 쓰기후 잠그기를 해방한다 . 

*/ 

static inline void up_write (struct rw_semaphore *sem) 

{ 

rwsemtrace(sem, "Entering up_write") : 

— up_write(sem) : 

rwsemtrace(sem, "Leaving up_write") : 


/* 

* 쓰기 에 대하여 잠근다 . 

*/ 

static inline void down_write (struct rw_semaphore *sem) 

{ 

might_sleep() : 

rwsemtrace(sem, "Entering down_write") : 

— down_write (sem) : 

rwsemtrace(sem, "Leaving down_write") : 
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sys _ remap _ file_pages 0는 MM \ fremap , c 에 정 의 되 여 있는데 새 기 억 기 구역 의 선 
형주소를 엄는다. 

15. 마지막으로 새 기억기구역의 선형주소를 반환하며 완료한다. 

(5) 선형주소구간의 해제 

do _ munmap () 함수는 현재 프로쎄스의 주소공간에서 선형 주소구간을 제거 한다. 이 
함수는 구간의 시작주소인 addr 와 구간의 길이인 len 을 변수로 사용한다. 대체로 지우 
려는 구간은 기억기구역 하나에만 해당하지 않는다. 해당 구간이 한 기억기구역에 들어 
가기도 하지만 두 구역 이상에 걸쳐 있을수도 있다. ( MMXnommu . c ) 

이 함수는 크게 두 단계를 거친다. 1단계에서는 프로쎄스소유의 기억기구역목록을 
검색 하여 선형주소구간과 겹치는 모든 구역을 지운다. 2단계 에서는 프로쎄스페지표를 
갱 신하고 1단계 에서 제거한 기억기구역의 크기를 줄인 구역을 다시 삽입한다. 

1단계: 기억기구역검색 

do _ mummap () 함수는 다음 단계를 수행 한다. 

1. 본격적인 작업에 앞서 변수값을 검사한다. 선형주소구간이 TASK _ SIZE 보다 
큰 주소를 포함하거나 addr 가 4096의 배수가 아니거나 선형주소구간의 길이가 0이면 
오유코드 - EINVAL 을 반환한다. 

2. 삭제할 선형 주소구간과 겹치는 첫번째 기 억기구역을 찾는다. 

mpnt = find _ vma_prev ( current -> mm , addr , 技 prev ); 

if ( !mpnt 11 mpnt -> vm_start >= addr + len ) 
return 0； 

3. 선형주소구간이 기 억기구역중간에 들어있을 때 이것을 삭제 하면 구역 이 작은 
구역 두개 로 나누어질것 이다. 

split _ vma () 함수로 기 억구역을 조겐다. 

4. 해방된 vma 목록을 만들고 mm 의 vma 목록으로부터 삭제 하며 실제폐지를 해방 
한다. 다음 페지 표를 호출하여 지 적된 령역 에서 페지 표정보의 레 코드 ID 를 엄는다. 이때 
대 용량페 지 인경 우와 일 반폐 지인 경 우를 갈라 처 리 한다. 

5. 선형주소구간과 겹치는 모든 기 억기구역의 서술자를 목록으로 만든다. 기 억기 
구역서술자의 vm_next 마당이 목록앞에 들어있는 요소를 가리키게 하여 목록을 만들수 
있다. (따라서 이 마당은 이전것을 가리키는 역 할을 한다.) 각 구역을 이 목록에 추가할 
때마다 변수 free 가 마지막으로 추가한 요소를 가리키게 한다. 이 목록에 추가한 구역을 
프로쎄 스소유의 기 억 기 구역 목록과 빨간색 -검 은색 나무에 서 제 거 한다. ( rb_erase () 함수를 
리 용한다.) 

npp = (prev ? & prev -> vm_next : & current -> mm -> mmap ) ; 

free = NULL ； 

spin_lock (& current -> rnm -> page _ table _ lock ) : 
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for (; mpnt 技技 mpnt -> vm_start < addr + len ； mpnt = * npp ) { 

*npp = mpnt -〉 vm _ next ; 
mpnt - > vm_next = free ； 
free = mpnt ; 

rb_erase (& mpnt -> vm _ rb , 技 current -〉 mm -〉 mm _ rb ) ； 

} 

current -〉 mrn -〉 mmap_cache = NULL ； 
spin_unlock (& current -> mm -> page _ table _ lock ) ; 

2 단계 : 폐지표갱신 

free 가 가리키는 기억기구역서술자부터 시작하여 1단계에서 만든 기억기구역 목록 
을 살펴보러고 while 문을 사용한다. 

반복때마다 변수 mpnt 는 목록에 있는 기억기구역의 서술자를 가리킨다. 
current->mm 기 억 기 서 술자의 map_count 마당값을 1씩 줄이 고 (1 단계 에 서 프로쎄 
스소유의 기억기구역목록에서 구역을 이미 삭제했기때문에) mpnt 구역을 제거해야 하는 
지 아니면 단순히 크기를 줄여 야 하는지 결정하기 위 한 검사를 한다. (이것은 두 의문형 
조건문에서 한다.) 

current -〉 nm -〉 map _ count --； 

st = addr < mpnt -> vrn_start ? mpnt -> vm_start : addr ； 
end = addr+len ； 

end = end > mpnt -〉 vm_end ? mpnt -> vm_end : end ； 
size = end - st ； 

변수 st 와 end 는 mpnt 가 가리키는 기억기구역에서 삭제할 선형주소구간의 경계를 
지정한다. 변수 size 는 구간의 길이를 지정한다. 

다음으로 do _ munmap () 은 社와 end 사이 구간에 들어있는 페 지 에 할당한 폐 지 틀을 
해제 한다. 

zap _ page_range ( mm , st , size ) ; 

zap _ page _ range () 함수는 社와 end 사이의 구간에 들어있는 페지틀을 해제하고 해당 
페지표입구점을 갱신한다. 이 함수는 페지표를 조사하려고 zap _ pmd _ range () 와 
zap _ pte _ range () 함수를 중첩해서 호출한다. zap _ pte _ range () 함수가 페지입구점표를 지 
우고 해당 메지틀을 해제한다. (또는 교체기억기령역으로 보낸다.) 이 과정에서 
zap _ pte _ range () 는 st 부터 end 사이의 구간에 해당하는 TLB 입구점을 비우는 일도 한다. 

do _ munmap () 순환에서 반복을 할 때마다 마지막으로 하는 일은 mpnt 가 가리키는 기억 
기구역을 축소하여 current 의 기억기구역목록에 다시 삽입해야 하는지 검사하는것이다. 
extra = unmap_fixup ( mm , mpnt , st , size , extra ) ； 
unmap _ fixup () 함수는 다음 4 가지 가능한 경우를 고려한다. 
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1. 기억기구역이 완전히 없어졌다. 이전에 할당한 기억기구역객체의 주소를 반환한 
다. ( 《 1단계 : 기 억기구역 검색》에서 4단계참고) kmem _ cache _ free () 를 호출하여 이 
객체를 해제할수 있다. 

2. 기 억 기구역의 뒤부분만 삭제 되였다. 

( mpnt -> vm_start < st ) && ( mpnt -> vm_end == end ) 

이 경우 mpnt 의 vm_end 마당과 갱신하고 _ insert _ vm-_truct 0 를 호출하여 
프로쎄스소유의 기억기구역목록에 축소된 구역을 삽입한 후 이전에 할당한 기억기구 
역객체의 주소를 반환한다. 

3. 기억기구역의 앞부분만 삭제되였다. 

( mpnt -> vm_start == st ) && ( mpnt -> vm_end > end ) 

이 경우 mpnt 의 vm_start 마당과 갱신하고 _ insert _ vm _ stmct () 를 호출하여 
프로쎄스소유의 기억기구역목록에 축소된 구역을 삽입한 후 이전에 할당한 기억기구 
역객체의 주소를 반환한다. 

4. 선형주소구간이 기억기구역의 중간에 있다. 

( mpnt -> vm_start < st ) && ( mpnt -> vm_end > end ) 

mnpt 와 이전에 할당한 여분의 기억기구역서술자의 vm_start 와 vm_end 마당과 
갱신하여 이것들이 각각 mpnt -> vm_start 에서 st 사이의 구간과 end 에서 mpnt - 
> vm_end 사이의 구간을 가리키게 한다. 그후 _ insert _ vm_structO 를 두번 호출해 
서 두 구역을 프로쎄스소유의 기억기구역목록과 빨간색-검은색나무에 추가한 후 
NULL 을 반환해서 이전에 할당한 여분의 기억기구역서술자를 보존한다. 

이것으로 do _ munmap () 의 2단계 순환에서 한번 반복할 때 수행하는 일에 관한 
설명을 마쳤다. 

1단계 에서 만든 목록에 들어있는 모든 기억기구역서술자를 처러한 후 
do _ munmap ( ) 은 여분의 기억기서술자를 사용했는지 여부를 검사한다. unmap _ fixup () 
이 NULL 을 반환하면 이 서술자를 사용한것이고 그렇지 않으면 do_inunmapO 는 
kmem _ cache _ free () 를 호출하여 이것을 해제한다. 마지막으로 do _ munmap () 는 
打 ee _ pgtaHe () 함수를 호출한다. 이 함수는 방금 제거한 선형주소구간에 해당하는 페지표 
입구점을 검색하여 사용하지 않는 페지표를 저장하는 폐지틀을 회수한다. 

4. 페지오유례외조종기 

앞에 서 언 급한것 처 럼 Linux 의 페 지 오유례 외 조종기 는 프로그람작성 오유때 문에 발생 
한 례외와 정 당하게 프로쎄스주소공간에 들어있지만 아직 할당하지 않은 폐지를 참조해 
서 발생 한 례외를 구별해 야 한다. 

기 억 기 구역 서 술자는 례 외 조종기 가 이 일을 효과적 으로 수행할수 있게 한다. 80 x 86 
구조용 페 지 오유례 외 조종기인 do _ page _ fault () 함수는 폐 지 오유가 발생 한 선형 주소와 
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current 프로쎄 스의 기 억 기 구역 을 비 교한다. 

그래서 그림 3-10 과 같이 례외를 처리하는 옳바른 방법을 결정한다. 




합법적인 접근: 

새 페지틀을 할당한다. 


접근 류형 이 기억 기 구역 
접근권한과 일치하는가 




주소가 프로쎄스 
주소공간에 들어있는가 


、、ᄂ 


잘못된 접근: 

SIGSEGV 신호를 보낸다. 


아니 



사용자방식에서 
례외가 발생했는가 






핵심부오유: 

프로쎄스를 소멸 한다. 


그림 3-10. 페지오유조종기의 전반적인 구성 


폐지오유조종기는 전체적인 구조에 잘 맞지 않는 몇가지 특이한 경우를 구별해야 하고 
여러 가지 정당한 접근을 구별해야 하기때문에 실제작업은 그림에 나타낸것보다 훨씬 복잡 
하다. 그림 3-11 은 조종기의 자세한 순서도이 다. 

do _ page _ fault () 에 나오는 vmalloc _ fault 와 good _ area , bad _ area , no_context 표식 
은 순서도블로크와 코드의 특정행을 련관시키는데 도움을 준다. 
do _ page _ fault () 함수는 다음과 같은 입력변수를 받는다. 

• 례외 가 발생할 당시의 극소형처 리기 등록기값을 포함하는 pt_regs 구조체의 
주소 regs 

• 례 외가 발생 할 때 조종장치 가 탄창에 저 장하는 3 bit error _ code . 이 비 트의 
의미는 다음과 갈다. 

- 비트0이 0이면 존재하지 않는 패지에 접근할 때 례외가 발생한것이다. (페 
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지표 입구점에 있는 Present 기발이 0이다.) 비트 0이 1이면 잘못된 접근권한때문 
에 례외가 발생한것 이다. 

- 비트 1이 0이면 읽기나 실행접근, 1이면 쓰기접근때문에 례외가 발생한것이다. 

- 비트 2가 0이면 처리기가 핵심부방식에 있을 때，1이면 사용자방식에 있을 
때 례외가 발생한것 이다. 
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do _ page _ fault () 가 하는 첫번째 작업은 폐지오유가 발생한 선형주소를 읽는것 이다. 
례외가 발생할 때 CPU 조종장치는 이 값을 cr 2 조종등록기에 저장한다. 

_ asm _ ("movl %% cr 2, %0": "= r " ( address )); 

if ( notify _ die ( DIE _ PAGE _ FAULT , "page fault ", regs , error _ code , 14, 
SIGSEGV ) == NOTIFY _ STOP ) 


return ； 

if ( regs->eflags & ( X 86_ EFLAGS_IF | VM _ MASK )) 
local _ irq_enable () : 
tsk = current ； 

오유가 발생한 선형주소를 변수 address 에 저장한다. 또한 오유가 발생하기 전에 
새 치기를 허 용하고있었으면 이것을 허 용한다. current 프로쎄스서 술자 지적 자를 변수 
tsk 에 저장한다. 

그림 3-11 의 웃부분에서 보는바와 같이 do _ page _ fault () 는 먼저 잘못된 선형주소 
가 마지 막 1 GB 령역 에 들어있는지 그리 고 핵 심 부가 존재하지 않는 폐 지 틀을 접 근하다가 
례 외 가 발생한것 인지 검 사한다. 

if (unlikely (address >= TASK _ SIZE )) { 
if (! ( error_code & 5)) 

goto vmalloc _ fault ； 

만일 CONFIG _ X 86_4 G 인 경우 처리는 다음과 같다. 

#ifdef CONFIG _ X 86_4 G 

/* If it’s vm 86 fall through */ 

if (unlikely (! ( regs->eflags & VM _ MASK ) && (( regs->xcs & 3) == 0))) 

{ 

if ( error_code & 3) 

goto bad _ area _ nosemaphore : 
goto vmalloc _ fault ； 

} 

telse 


vmalloc_fault 표식에 있는 코드는 핵심부방식에서 불련속적인 기억기령역을 접근 
하다가 발생한것과 갈은 오유를 처리한다. 이 경우에 대해서는 후에 보게 되는《불련속 
적인 기억기령역접근》에서 설명한다. 다음으로 례외가 새치기를 처리하거나 핵심부스레 
드를 실행하는 도중에 발생했는지 검사한다. 핵심부스레드의 프로쎄스서술자의 mm 마당 
은 항상 NULL 이 라는 사실 을 기 억 할것 이 다 . 
info.i_code = SEGV_MAPERR ； 
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if (injnterrupt ( ) | | ! tsk -> mm ) 
goto no _ context ; 

두 경우 모두 do _ page _ fault () 는 선형주소를 current 의 기억기구역과 비교하지 않 
는다. 새치기조종기와 핵심부스레드는 TASK _ SIZE 아래의 선형주소를 전혀 사용하지 
않으므로 기억기구역을 전혀 사용하지 않는다. 따라서 이것을 비교하는것은 의미가 없 
다. (변수 info 에 대 한 정보와 no _ context 표식 에 있는 코드에 관한 설명은 다음절에서 
볼수 있다.) 

페지오유가 새치기조종기나 핵심부스레드에서 발생하지 않았다고 하자. 그러면 이 
함수는 프로쎄스소유의 기억기구역을 조사하여 오유가 발생한 선형주소가 프로쎄스의 주 
소공간에 들어있는가를 검사한다. 

if ( ! down _ read_trylock (& mm -> mmap _ sem )) { 
if (( error_code & 4) == 0 && 

! search _ exception_tables ( regs -> eip )) 
goto bad _ area _ nosemaphore : 
down_read (& mm -> mmap _ sem ); 

} 

vma = find _ vma ( mm , address ) : 
if (! vma ) 

goto bad _ area ； 

vma 가 NULL 이면 address 이후에 끝나는 기억기구역이 없다는 의미이다. 따라서 
오유가 발생한 주소는 분명히 잘못된 주소이다. 반면에 address 이후에 끝나는 첫번째 
기 억기구역 이 address 를 포함하는 경우 good_area 표식에 있는 코드로 뛰 여 넘는다. 

이 두 가지 if 조건에 모두 해당하지 않으면 address 를 포함하는 기억기구역이 없다 
는 의미 이 다. 그러 나 오유가 발생 한 주소가 프로쎄스의 사용자방식탄창에 push 나 
pusha 명령을 사용했기때문일수도 있으므로 추가로 이것을 검사해야 한다. 

여기서 탄창을 기억기구역에 배치하는 방법을 보기로 하자. 탄창이 들어있는 구역을 
낮은 주소쪽으로 확장한다. 이 구역의 VM _ GROWSDOWN 기발을 설정 하므로 vm_end 
마당값은 바뀌지 않는 반면에 vm _ start 마당의 값은 감소할수 있다. 이 구역의 범위는 
사용자방식탄창의 현재 크기 를 포함하지만 정 확하게 경계를 구분하지 않는다. 이 런 요인 
이 생기는 리유는 다음과 같다. 

■ 탄창크기는 임의 인 반면에 구역의 크기는 4 kB 의 배수다. (구역은 완전한 폐지 
를 포함해 야 한다. ) ■ 구역 에 할당한 패지틀은 해 당구역을 없애 기전까지 절대 로 해제 
되지 않는다. 특히 탄창이 들어있는 구역의 vm _ start 마당값은 감소만 할수 있으며 
절대로 증가하지 않는다. 프로쎄스가 일련의 pop 명령을 수행하여 탄창지적자가 증 
가하더라도 구역의 크기는 변하지 않고 그대로이다. 
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이제는 탄창용으로 할당한 마지막 페지틀까지 모두 사용한 프로쎄스가 어떻게 페지 
오유례외를 일으킬수 있는가는 명확해졌을것이다. 이것은 push 명령을 리용해서 구역밖 
에 있는 주소를(그리고 존재하지 않는 폐지틀을) 참조하는 경우이다. 이런 종류의 례외 
는 프로그람작성을 잘못하여 발생한것이 아니므로 폐지오유조종기는 이것을 별도로 처리 
해 야 한다. 

다시 do _ page _ fault () 로 돌아가 방금전에 설명한 경우를 검사하는 코드를 살펴보자. 

if (! ( vma -> vm_flags & VM _ GROWSDOWN )) 
goto bad _ area ； 

if ( error_code & 4 /* 사용자방식 */ 

&& address + 32 < regs -> esp ) 
gotobad area ； 

if ( expand _ stack ( vma , address )) 
goto bad _ area ； 

goto good - area ； 구역의 기 발에 VM _ GROWSDOWN 기 발이 설정되 여 있으면서 사 
용자방식에서 례외가 발생 한 경우 address 가 탄창지적 자 regs -> esp 보다 작은가를 검사 
한다. (조금만 작아야 한다.) 탄창과 관련한 몇 가지 기 호언어명 령 (pusha 같은)은 기 억 
기접근후에만 esp 등록기를 감소시키기때문에 프로쎄스에 32 B 의 허용구간을 준다. 주소 
가 충분히 높으면(허용구간내에서) expand _ stack () 함수를 호출하여 프로쎄스가 탄창과 
주소공간을 확장할수 있는가를 검사한다. expand _ stack () 은 모든것이 이상없으면 vma 
의 vm _ start 마당을 address 로 설정한 후 0을 반환하고 그렇지 않으면 - ENOMEM 을 
반환한다. 

앞서 살펴 본 코드는 구역 에 VM _ GROWSDOWN 기 발이 설정되 여 있으면서 사용자방 
식에서 례외가 발생한것이 아닌 경우 허용구간을 검사하지 않는다. 이 경우는 핵심부가 
사용자방식 탄창의 주소를 지정한것으로 항상 expand _ stack () 을 수행해 야 한다. 

1) 주소공간밖의 잘못된 주소처리하기 

address 가 프로쎄 스의 주소공간에 들어있지 않으면 do _ page _ fault () 는 bad_area 
표식에 있는 문장부터 실행한다. 사용자방식에서 오유가 발생하면 현재프로쎄스에 
SIGSEGV 신호를 보내고 완료한다. 

bad area ： 

up_read (& tsk -> mm -> mmap _ sem ) : 

bad _ area _ nosemaphore : 
if ( error_code & 4) { /* 사용자방식 */ 

if ( is _ prefetch ( regs , address , error _ code )) 
return ； 

tsk -> thread . cr 2 = address ; 
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tsk -> thread . error_code = error_code | (address >= TASK _ SIZE ) : 

tsk -> thread . trap _ no = 14； 

info . si _ signo = SIGSEGV ; 

info . si_errno = 0； 

info . si_addr = (void *) address ； 

force _ sig_info ( SIGSEGV , & info , tsk ) : 

return ； 

} 

force _ sig _ info () 함수는 프로쎄스가 SIGSEGV 신호를 무시하거나 차단하지 않는다 
는 사실을 확인한 후 변수 info 에 추가정보를 담아 사용자방식프로쎄스에 신호를 전송 
한다. info . si _ code 마당은 이미 SEGV_MAPERR (존재 하지 않는 폐지 틀때문에 례외가 
발생한 경우)나 SEGV _ ACCERR (존재하는 폐지틀에 잘못된 접근을 하여 례외가 발생 
한 경우)로 설정되 여있다. 

핵심부방식에서 례외가 발생하였다면 ( error _ code 의 비트2의 값이 0이다) 다음 두 
경우중 하나이 다. 

■ 체계호출변수로 핵심부에 전달한 선형주소를 사용하는중에 례외가 발생하였다. 

• 실제 핵심부오유때문에 례외가 발생하였다. 

do _ page _ fault () 함수는 다음과 갈이 이러한 두 경우를 구별한다. 

no context : 

if ( (fixup = search _ exception _ table ( regs -> eip ) ) != 0){ 
regs->eip = fixup : 
return ； 

} 

첫번째 경우에는《 표식코드 (fixup code ) 》로 이 행 한다. 이 코드는 대 개 current 
에 SIGSEG 신호를 보내거나 적당한 오유코드를 반환하며 체계호출조종기를 끝낸다. 

두번째 경 우에 는 CPU 등록기 와 핵 심 부방식 탄창을 조작탁과 체 계 통보문완충기 로 이 
행 ( dump ) 한 후 do _ exit () 를 호출해서 현재프로쎄스를 소멸한다. 이것이 《kernel 
oops 》 오유로 출력하는 통보문에서 붙은 이름이다. 핵심부해커는 이행한 값을 사용하여 
오유가 발생한 상황을 재구성하고 오유를 찾아 고칠수 있다. 

2) 주소공간안의 잘못된 주소 처리하기 

do _ page _ fauIt () 는 address 가 프로쎄스의 주소공간에 속하면 good _ area 표식 이 있 
는 문장부터 실행 한다. 

good _ area ： 

info . si_code = SEGV — ACCERR ; 
write = 0； 
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switch ( error_code & 3) { 

default ： /* 3： 현재 쓰기 */ 

■ef TEST _ VERIFY_AREA 

if ( regs->cs == KERNEL _ CS ) 

printkC'WP fault at %081 x \ n ”， regs -> eip ) : 

#endif 

/* fall through */ 

case 2： /* 쓰기접근 */ 

if (!( vma -> vm_flags & VM _ WRITE )) 
goto bad _ area ； 
write ++； 
break ； 

case 1： /* 읽기 */ 

goto bad _ area ； 

case 0： /* 읽기접근 */ 

if (!( vma -> vm_flags & ( VM_READ | VM — EXEC ))) 
goto bad _ area ； 

} 

쓰기접근때 문에 례외가 발생 하였다면 기 억기구역 이 쓰기 가능한가를 검사한다. 쓰기 
가 가능하지 않으면 bad _ area 코드로 이행하고 쓰기가 가능하면 변수 write 를 1로 설정 
한다. 

례외가 읽기나 실행접근때문에 발생하였다면 폐지가 이미 RAM 에 존재하는가를 검 
사한다. 폐지가 존재하면 사용자방식에 있는 프로쎄스가 특권이 필요한 페지틀 
( User/Supervisor 기발이 0) 에 접근하려다가 례외가 발생한것이므로 bad _ area 로 이 
행한다. 페지가 존재하지 않으면 기억기구역이 읽기나 실행이 가능한가도 검사한다. 

례외를 발생시킨 접근류형과 기억기구역의 접근권한이 일치하면 

handle _ mm _ fault () 함수를 호출하여 새로 페지틀을 할당한다. 

survive ： 

switch ( handle _ mm _ fault ( mm , vma , address , write )) { 
case VM — FAULT — MINOR : 
tsk -> min _ flt ++； 
break ； 

case VM _ FAULT _ MAJOR : 
tsk -> maj _ flt ++； 
break ； 
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case VM _ FAULT _ SIGBUS : 

goto do _ sigbus ; 
case VM _ FAULT _ OOM ： 

goto out _ of _ memory : 
default ： 

BUGO ； 

} 

handle _ mm _ fault () 함수는 MM \ memory . c 에 정 의 되 여 있 다. 
handle _ mm _ fault () 함수는 프로쎄스에 새로 폐지틀을 성공적으로 할당한 경우 1이 
나 2를 반환한다. 1은 현재프로쎄스를 차단하지 않고 폐지오유를 처리했다는것을 의미 
하며 이 런 종류의 페 지 오유를《 부오유 (minor fault ) 》라고 부른다. 2는 페 지 오유에 의 
해 현재프로쎄 스가 잠들었 다는것 을 의 미하며 (대부분 디스크에 서 자료를 읽 어들여 서 프로 
쎄스에 할당한 폐지틀을 채우는데 시간을 소비하기때문이다) 이렇게 현재프로쎄스를 차 
단하는 폐 지 오유를 가리켜 《 주오유 (major fault ) > 라고 부른다. 이 함수는 -1( 기 억기 
부족)이나 0( 그 밖의 오유)을 반환하기도 한다. 

handle _ mm _ fault () 가 0을 반환하면 프로쎄스에 SIGBUS 신호를 보낸다. 
if ( ! ret ) { 

up_read (& tsk -> mm -> mrnap _ sem ); 
tsk -> thread . cr 2 = address : 
tsk -> thread . error_code = error _ code ； 
tsk -> thread . trap_no = 14； 
info . si _ signo = SIGBUS ； 
info . si _ errno = 0； 
info . si_code = BUS — ADRERR ; 
info . si_addr = (void *) address ; 
foroe _ sig _ info ( SIGBUS , & info , tsk ) ; 
if ( ! ( error_code & 4) ) /* 핵 심 부방식 */ 

goto no _ context ； ) 

} 

handle _ mm _ fault () 가 새로 폐지틀을 할당하지 못한 경우 핵심부는 보통 현재프로 
쎄스를 소멸한다. 그러나 current 가 init 프로쎄스라면 이것을 실행대기렬의 맨끝에 넣 
고 순서짜기프로그람을 호출한다. init 프로쎄스가 실행을 재개하면 handle _ mm _ fault () 
가 다시 실행된다. 
if ( ret == -1) { 

up_read ( & tsk -> mm -> mmap _ sem ) : 
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if ( tsk->pid != 1) { 

if ( error_code & 4 ) /* 사용자방식 */ 

do_exit ( SIGKILL ) : 
goto no_context : 

} 

tsk->policy != SCHED _ YIELD ； 
schedule ( ) : 

down_read (& tsk -> mm -> mmap _ sem ); 
goto survive ； 

} 

handle _ mm _ fault ( ) 함수는 다음 4 개 변수를 사용한다. 


례외가 발생할 때 CPU 에서 동작중이던 프로쎄스의 기 억기서술자를 가리키는 지 
적자이다. 
vma 

례외가 발생한 선형주소를 포함하는 기억기구역의 서술자를 가리키는 지적자이다. 
address 

례외 가 발생한 선형주소이 다. 
write_access 

task 가 address 에 쓰기를 하려고 시도한 경우 1, 읽기나 실행을 하려한 경우 0으 
로 설정한다. 

이 함수는 맨 먼저 address 를 배치하는데 사용하는 폐지중간등록부와 페지표가 존 
재하는가를 검사한다. address 가 프로쎄스의 주소공간에 속하더라도 해당 페 지표를 아 
직 할당하지 않았을수도 있으므로 이것을 할당하는 작업이 모든 일에 앞선다. 
spin _ lock (& mm -> page _ table _ lock ) : 
pgd = pgd_offset ( nm , address ) : 
pmd = pmd _ alloc ( mm , pgd , address ) : 
if ( pmd ) { 

pte = pte_alloc ( mm , pmd , address ) : 
if ( pte ) 

return handle _ pte_fault ( mm , vma , address , write _ access , pte ) : 

} 

spin_unlock ( & mm -> page _ table _ lock ) : 
return - 1； 

변수 pgd 는 address 를 참조하는 폐지대역등록부입구점을 포함한다. 필요하다면 
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pmd _ alloc () 을 호출하여 새로운 페지중간등록부를 할당하고 pte _ alloc () 을 호출하여 
새로운 페지표를 할당한다. 두 작업 모두 성공하면 변수 pte 는 address 를 참조하는 페 
지표입구점을 가리 킨다. 다음으로 handle _ pte _ fault () 함수를 호출하여 address 에 해 당 
하는 페지표를 조사하고 프로쎄스에 새로 패지틀을 어떻게 할당하겠는가를 결정한다. 

■ 접근한 폐지가 존재하지 않으면 즉 해당 폐지를 저장하는 폐지틀이 없으면 핵 
심부는 새로운 폐지틀을 할당하고 초기화한다. 이런 기법을 《요구페지화 (demand 
paging ) 》라고 한다. 

■ 접근한 페지가 존재하지만 읽기전용이면 즉 해당 페지를 저장하는 폐지틀이 이 
미 존재하면 핵심부는 새로운 폐지틀을 할당하고 기존 패지틀의 내용을 새로운 프레임 
으로 복사하여 초기화한다. 이런 기법을《쓰기복사 (Copy On Write )》 라고 한다. 

3) 요구폐지화 

요구폐지화 (demand paging ) 는 가능한 마지막 순간까지 즉 프로쎄스가 RAM 에 존 
재하지 않는 폐지의 주소로 접근하여 페지오유례외가 발생하는 순간까지 패지틀할당을 
연기 하는 동적 기 억 기 할당기 법 이 다. 

요구폐 지 화를 시 작한 동기 는 프로쎄스가 처 음부터 자신의 주소공간에 들어있는 모든 
주소에 접근하지는 않는다는것이다. 사실 프로쎄스는 이 주소중 일부를 전혀 사용하지 
않기 도 하고 더 나가서 지 역 성 원 리 (locality principle ) 에 따라 프로그람을 실 행 하는 매 
단계에서는 프로쎄스페지의 일부분만 실제로 참조한다. 따라서 일시적으로 사용하지 않 
는 폐지를 담은 폐지틀을 다른 프로쎄스가 사용할수도 있다. 

요구폐지화는 체계에 존재하는 여유페지틀의 평균개수를 늘여 사용가능한 여유기억 
기를 더 효률적 으로 사용할수 있게 하므로 전체를 할당하는것 (프로쎄스가 시 작하는 즉시 
프로쎄스에 모든 폐지틀을 할당하고 프로쎄스가 완료할 때까지 기 억기 에 그대로 유지하 
는것)보다 훨씬 좋다. 다른 관점에서 보면 요구페지화는 똑같은 량의 RAM 으로 더 많 
은 작업을 처리할수 있게 한다. 

핵심부는 요구페지화때문에 발생하는 매 페지오유례외를 처리해야 하므로 CPU 박자 
수를 랑비하게 된다. 다행히 지역성원리에 따라 프로쎄스가 일단 어떤 폐지그룹을 리용 
하여 작업을 시작하면 한동안은 다른 폐지를 사용하지 않고 이 폐지만 사용한다. 따라서 
폐지오유례외는 드물게 발생한다고 볼수 있다. 

다음과 갈은 리유로 접근한 폐지 가 주기억 기 에 존재 하지 않을수 있다. 

■ 프로쎄스가 해당 패지에 접근한 사실이 없다. 이 경우 폐지표입구점이 0으 
로 채워져있으므로 ( pte_none 마크로가 1을 반환한다) 핵심부는 이것을 리용해서 
이 경우를 구별할수 있다. 

■ 프로쎄스가 해당 패지에 접근한 사실이 있지만 폐지내용을 일시적으로 디스 
크에 저장하고있다. 이 경우 페지표입구점이 0으로 채워져있지 않으므로(그러나 
페지가 RAM 에 존재하지 않으므로 Present 기발은 0이다.) 이것을 리용하여 이 
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경우를 구별할수 있다. 

handle_pte_fault() 함수는 address 가 가리키는 페지표입구점을 조사하여 두 경우 
를 구별한다. 

페지를 디스크에 저장하는 경우 (do_swap_page() 함수를 사용하여)는《폐지교환하 
여넣기》에서 살펴보자. 

페 지 에 접근한 사실 이 없다면 do_no_page 0 함수를 호출한다. (MM\memory.c) 
이렇게 빠뜨린 페지를 읽어들이는 방법은 폐지가 디스크파일을 배치하는가에 따라 
두가지가 있다. 이 함수는 기 억기구역객체 인 vma 에 있는 nopage 메쏘드를 검사해서 이 
것을 판단한다. 이 메쏘드는 패지가 파일을 배치하고있으면 디스크에서 빠뜨린 폐지를 
읽어들이는 함수를 가리킨다. 

따라서 다음과 갈은 경우가 있을수 있다. 

■ vma->vm_ops->nopage 마당이 NULL 이 아니다. 이 경우 기억기구역은 디스 
크파일을 배치하며 이 마당은 폐지를 읽어들이는 함수를 가러킨다. 《기억기배치의 
요구페지화》와 《IPC 공유기억기》에서 이 경우를 다룬다. 

■ vm_ops 마당나 vma->vm_ops->nopage 마당이 NULL 이다. 이 경우 기억기구 
역 은 디 스크에 있는 파일을 배 치 하지 않는다. 즉 《 닉 명 배 치 (anonymous 
mapping) 》를 한다. 따라서 do_no_page() 는 do_anonymous_page() 함수를 호출 
하여 새로운 폐지틀을 할당한다. 

if ( !vma->vm_ops 11 ! vma->vm_ops->nopage) 

return do_anonymous_page (mm, vma, page table, 
write_acoess, address) : 

do_anonymous_page () 함수는 쓰기 요청 과 읽기 요청 을 별 도로 처 리 한다. 

이 함수는 쓰기접근을 할 때에는 alloc_page_vma() 를 호출하고 memset 마크로를 
사용하여 새 페지들을 0으로 채운다. 

다음으로 tsk 의 min_flt 마당을 증가시켜 프로쎄스에서 발생한《부폐지오유 (minor 
page fault) 》의 회 수를 관리 한다. 다음으로 기 억 기 서 술자의 rss 마당의 값을 증가시 켜 
프로쎄스에 할당한 페지틀의 수를 관리한다. 그리고 페지표입구점에 폐지틀의 물리주소 
를 설정한다. 이 페지틀은 쓰기가능하고 내용이 바뀌였다고 표시한다. 

lru_cache_add_active() 와 mark_page_accessed() 함수는 새 폐지틀을 교환과 관 
련한 자료구조에 추가한다. 이 부분은 뒤에서 설명한다. 

반대로 읽기접근을 다룰 때에는 프로쎄스가 해당 페지에 처음 접근한것이므로 폐지 
의 내용은 무의미하다. 여기서는 다른 프로쎄스가 써놓은 정보로 채워진 이전 페지보다 
는 0으로 채운 페지를 프로쎄스에 주는것이 더 안전하다. 

Linux 는 요구폐지화의 기능을 한 단계 더 발전시킨다. 여기서 곧바로 프로쎄스에 
0으로 채운 새 프레 임을 할당할 필요는 없다. 프로쎄스에 령페지 (zero page) 라는 이미 
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존재 하는 페지를 주어 폐지틀할당을 연기할수도 있기때 문이 다. 령페지는 핵 심부초기화과 
정에서 empty _ zero _ page 변수 (long integer 형을 1024개를 포함하는 배럴로써 0으로 
채워져 있다)에 정적으로 할당한것 이 다. 령폐지는 5번째 폐지틀에 들어있고(물리주소 
0 x 00004000 부터 시작한다.) ZERO _ PAGE 마크로로 참조할수 있다. 따라서 페지표입구 
점을 령패지의 물리주소로 설정한다. 

entry = pte_wrprotect ( mk_pte ( ZERO _ PAGE , vma -> vm _ page _ prot )) 

set_pte ( page _ table , entry ) : 

spin _ unlock (& mm -> page _ table _ lock ) : 

return 1； 

페지를 쓰기금지로 표시하기때문에 프로쎄스가 여기에 쓰려고 하면 《쓰기복사》기 
구가 동작한다. 그러하여 프로쎄스는 이때에만 쓸수 있는 자기만의 패지를 소유하게 된 
다. 이 기구는 다음에 설명한다. 

4) 쓰기복사 (Copy On Write ) 

1세대 Unix 체계에서는 서투른 방법으로 프로쎄스생성을 실현하였다. forkO 체계호 
출을 실행하면 핵심부는 말그대로 부모주소공간을 모두 복제하여 자식프로쎄스에 사본을 
할당하였다. 이것은 다음과 같은 작업이 필요하기때문에 시간을 많이 소모한다. 

■ 자식프로쎄스의 페지표용으로 폐지틀 할당 

■ 자식프로쎄스의 페지용으로 폐지틀 할당 

■ 자식프로프로쎄스의 폐지표 초기화 

■ 부모프로쎄스의 페지를 자식프로쎄스의 해당 폐지로 복사 

이렇게 주소공간을 생성하는 방법은 많은 기억기접근이 필요하고 CPU 박자수를 많 
이 사용하며 캐쉬의 내용을 완전히 못쓰게 만든다. 마지막으로 더 심각한 문제는 많은 
자식프로쎄스가 새로운 프로그람을 적재하고 실행하여 상속받은 주소공간을 완전히 페기 
하므로 이 작업은 종종 쓸데 없는 일 이 된다는 점 이 다. 

Linux 를 포함한 최 근의 Unix 핵 심부는 《 COW(Copy On Write ) > 라는 좀더 효 
률적인 접근방법을 사용한다. COW 의 개념은 매우 간단하다. 폐지틀을 복제하는 대신에 
부모프로쎄 스와 자식 프로쎄 스 사이 에 폐 지 틀을 공유하는것 이 다. 그러 나 공유하는 동안은 
폐지틀의 내용을 바물수 없다. 부모나 자식프로쎄스가 공유하는 패지틀에 쓰기를 할 때 
마다 례외가 발생하고 이때 핵심부는 새로운 폐지틀으로 폐지를 복제하여 이 폐지틀을 
쓰기가능으로 만든다. 원본페지틀은 쓰기금지상태로 남아서 다른 프로쎄스가 여기에 쓰 
기를 하려고 시도하면 핵심부는 쓰려는 프로쎄스가 폐지틀의 유일한 소유자인지 검사해 
서 조건에 맞으면 프로쎄스가 페지틀에 쓸수 있게 만든다. 

페 지 서 술자의 count 마당은 해 당 페 지 틀을 공유하는 프로쎄 스의 수를 유지 하는데 사 
용한다. 프로쎄스가 폐지틀을 해제하거 나 이 폐지틀에 쓰기복사를 하게 되면 count 마당 
의 값은 감소한다. 따라서 count 가 0이 될 때에만 폐지틀을 해제한다. 이제 Linux 에 
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서 COW 를 어떻게 실현하는가를 설명한다. handle _ pte _ fault () 함수는 기억기에 존재 
하는 페지를 접근하다가 폐지오유례외가 발생하면 다음 명령을 실행한다. 

handle _ pte _ fault () 함수는 방식과 무관계 한 함수이다. 이 함수는 페지접근권한과 
관련한 가능한 모든 위반을 고려한다. 그러나 80 x 86 방식에서 페지가 접근한다면 해당 
접 근류형 은 쓰기 이 고 폐 지 틀은 쓰기 금지상태 이 다. (《 주소공간안의 잘못된 주소 처 리 하 
기》를 참고) 따라서 항상 do _ wp _ page () 함수를 호출한다. 

do _ wp _ page () 함수는 페지오유례외와 련관된 페지표입구점이 참조하는 폐지틀의 
폐지서술자를 엄으면서 시작한다. 다음으로 페지를 정말 복제해야 하는가를 결정한다. 
한 프로쎄스만 해당 패지를 소유하면 쓰기복사를 적용하지 않고 프로쎄스는 마음대로 해 
당 페지에 쓰기를 할수 있다. 기본적으로 do _ wp _ page () 함수는 폐지서술자의 count 마 
당을 읽어서 값이 1이면 COW 를 하면 안된다. 실제로는 페지가 교체캐쉬에 들어갈 때 
도 count 마당이 증가하므로 이 검사는 좀 더 복잡하다. 하여튼 COW 를 할 필요가 없으 
면 다음에 이 패지틀에 쓰기를 하려할 때 더는 페지오유례외가 일어나지 않도록 폐지틀 
을 쓰기가능으로 표시한다. 

flush _ cache _ page ( vma , address ); 

entry = maybe_mkwrite ( pte_mkyoung ( pte_mkdirty ( pte )), vma ); 
ptep _ set _ access_flags ( vma , address , page _ table , entry , 1); 
update _ mmu _ cache ( vma , address , entry ); 
pte_unmap ( page _ table ) : 
spin_unlock (技 mm -> page _ table _ lock ) : 

COW 를 통해 해당 폐지를 여러 프로쎄스가 공유하면 이전 페지틀 ( old _ page ) 의 내 
용을 새로 할당한 폐지 틀 ( new _ page ) 로 복사한다. 경쟁조건을 방지하기 위 해 복사작업 
을 시작하기 전에 old_page 의 사용회수를 증가시킨다. 

이 전 페 지 가 령 패 지 ( zero _ page ) 면 memset 마크로를 리 용하여 새 로운 프레 임 을 0으 
로 채운다. 령페지가 아니면 memcpy 마크로를 사용하여 폐지틀의 내용을 복사한다. 령 
폐지를 특별하게 취급할 필요는 없지만 주소를 덜 참조하게 만들어 극소형처리기의 하드 
웨 어캐쉬 를 보존하기때 문에 체계성능을 향상한다. 

페지를 할당하다가 프로쎄스를 차단할수도 있으므로 do _ wp _ page () 함수는 함수가 
시 작한 이 후에 페 지 표입구점 이 변경되 였는가를 검사한다. (pte 와 * page_table 의 값이 다 
를 때) 이 경우 새 폐지틀을 해제하고 old_page 의 사용회수를 감소시킨 후(앞에서 증가 
시킨것을 취소하려고) 완료한다. 모든 작업이 정상적이라면 최종적으로 새 폐지틀의 물 
리주소를 페지표입구점 에 기록하고 해 당 TLB 입구점을 비운다. 

set _ pte ( pte , pte_mkwrite ( pte_mkdirty ( mk_pte ( new _ page , 
vma -> vm _ page _ prot ) ) ) ) ； 
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flush _ tlb_page ( vma , address ) ; 

1 ru _ cache_add ( new _ page ) : 
spin _ unlock (& rnm -> page _ table _ lock ) : 

lru _ cache _ add () 는 교체와 관련한 자료구조에 새 폐지틀을 삽입한다. 

5) 불련속적 인 기 억기 령역접근처리 

불련속적 인 기 억기 령역관리에서 핵심부는 불련속적 인 기 억기 령역에 해 당하는 페지표 
입구점을 갱신하는데서 아주 느리다고 설명하였다. 실제로 vmallocO 와 v : free () 함수는 
주핵심부폐지표(즉 폐지대역등록부인 mit _ mm . pgd 와 이것의 자식페지표)만을 갱신한다. 
그러 나 핵 심 부초기 화단계 가 끝난 후에 는 어 떤 프로쎄 스나 핵 심부스레 드도 주핵 심 부폐 지 
표를 직접 사용하지 않는다. 

그러므로 핵심부방식에 있는 프로쎄스가 불련속적인 기억기령역을 처음 접근하는 경 
우에 대하여 보기로 하자. 선형주소를 물리주소로 변환하는 과정에서 CPU 의 기억기관 
리유니트는 빈 ( null ) 페지표입구점을 만나 폐지오유를 일으킨다. 례외가 핵심부방식에서 
발생했고 오유가 발생 한 선형주소가 TASK _ SIZE 보다 크므로 페지오유례외조종기는 이 
특별한 경우를 구별할수 있다. 따라서 조종기는 해 당 주핵심부폐지표 입구점을 검사한다. 
vmalloo fault ： 

asm(’’movl |% cr 3 s 0" : " ：= r " ( pgd ) ) : 
pgd = — pgd_offset ( address ) + ( pgd_t *) — va ( pgd ) : 
pgd_k = init _ mm.pgd + — pgd _ o 打 set ( address ) : 
if ( ! pgd_present (* pgd _ k ) ) 
goto no _ context ； 
set_pgd ( pgd , * pgd _ k ) ; 
prnd = pmd_offset ( pgd , address ) : 
prnd_k = pmd_offset ( pgd _ k , address ) ； 
if ( ! pmd_present (* pmd _ k ) ) 
goto no_context : 
set_pmd ( pmd , * pmd _ k ) : 
pte_k = pte_offset ( pmd _ k , address ) ; 
if ( ! pte_present ( * pte _ k ) ) 
goto no_context : 
return : 

변수 pgd 를 cr 3 등록기 에 들어있는 현재프로쎄스의 폐지대 역등록부의 주소로 설정 하 
고 변수 pgd _ k 를 주핵심부폐지대역등록부로 설정한다. 페지오유가 발생한 선형주소에 
해 당하는 입구점 이 비 여 있으면 no _ content 표식 이 가리 키는 코드로 이 행 한다. (《 주소공 
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간밖의 잘못된 주소처 리 하기》참고) 입 구점 이 비 여있지 않으면 해 당 입 구점 을 프로쎄 스 
의 폐지대역등록부의 해당 입구점으로 복사한다. 그 이후 작업전체를 주폐지중간등록부 
입 구점 과 주페지 표입 구점 에서도 반복한다. 

5. 프로쎄스주소공간의 생성과 제거 

앞서 프로쎄스주소공간에서 설명한 프로쎄스에 새 기억기구역을 할당하는 6가지 전 
형적 인 경우중 첫번째 인 forkO 체계호출을 하는 경우 자식프로쎄스용으로 새로 전체 주 
소공간을 생성해야 하는 경우와 반대로 프로쎄스가 완료될 때 핵심부는 프로쎄스의 주소 
공간을 파괴한다는 내용을 보았다. 여기서는 Linux 에서 이 두 작업을 어떻게 수행하는 
가에 대하여 보기로 한다. 

1) 프로쎄스주소공간의 생성 

앞에서 본 《 cloneO , forkO , vforkO 체계호출》에서 언급한것처럼 핵심부는 새 
로운 프로쎄스를 생성 하는동안 copy _ mm () 함수를 호출한다 . ( KERNEL \ fork . c ) 

이 함수는 새로운 프로쎄스의 모든 페지표와 기억기서술자를 구성하여 프로쎄스주소 
공간을 생성한다. 

일반적 으로 매 프로쎄 스는 자신만의 주소공간이 있지 만 CLONE _ VM 기 발을 설정하 
고서 clone () 을 호출하여 가벼운 프로쎄스를 만들수도 있다. 가벼운 프로쎄스는 같은 
주소공간을 공유한다. 즉 갈은 패지집합에 접근할수 있다. 

이전에 설명한 COW 접근방법에 따르면 전통적인 프로쎄스는 부모의 주소공간을 상 
속받으며 폐지는 읽기만 하는 동안은 공유된 상태로 남는다. 그러다가 이중 한 프로쎄스 
가 공유하는 페지중 하나에 쓰기를 하면 해당 패지를 복사한다. 어느 정도 시간이 지나 
면 새로 만든 프로쎄스는 부모프로쎄스의 주소공간과 다른 자신만의 주소공간을 보유하 
게 된다. 반면에 가벼운 프로쎄스는 부모프로쎄스의 주소공간을 그대로 사용한다. 

Linux 는 이것을 주소공간을 복사하지 않고 간단하게 실현한다. 가벼운 프로쎄스는 
일반 프로쎄스보다 상당히 빨리 만들수 있으며 부모와 자식프로쎄스가 조심해서 접근을 
조절하는 한 기억기를 공유하는것 역시 리득이다. 

flag 변수에 CLONE _ VM 기발을 설정하여 cloneO 체계호출을 해서 새로운 프로쎄스를 
만들면 copy _ mm () 은 부모 ( current ) 의 주소공간을 복제프로쎄스 ( tsk ) 에 그대로 준다. 

if ( clone_flags & CLONE _ VM ) { 

atomicjnc (& oldmm -> mm _ users ) : 
mm = oldmm ； 

spin _ unlock_wait (& oldmm -> page _ table _ lock ) : 
goto good _ mm ； 


} 
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good _ mm : 

tsk->mm = mm ； 
tsk -> active_mm = mm ； 
return 0； 

CLONE _ VM 기발을 설정하지 않으면 copy _ mm () 은(프로쎄스가 주소를 사용하기 
전까지는 주소공간에 아무런 기억기도 할당하지 않더라도) 새로 주소공간을 만들어야 한 
다. 이 함수는 새로운 기억기서술자를 할당하고 이 주소를 새 프로쎄스서술자 tsk 의 
mm 마당에 저장한 후 여러 마당을 초기화한다. 

tsk->mm = kmem _ cache_al loc ( mm _ cachep , SLAB _ KERNEL ) ; 
tsk -> active_mm = tsk->mm 

memcpy ( tsk -> mm , current->mm sizeof (* tsk -> mrn ) ) : 
atomic_set (& tsk -> mm -> mm _ users , 1) : 
atomic_set (& tsk -> mm -> mm _ count , 1) : 
init_rwsern (& tsk -> mm -> mmap _ sem ) ; 
tsk -> mm -> page _ table_lock = SPIN _ LOCK _ UNLOCKED : 
tsk -> mm->pgd = pgd_alloc ( tsk -> mm ) : 

pgd _ alloc () 마크로가 새 프로쎄스용으로 페지대역등록부를 할당한다는 사실은 기억 
할것 이 다. 

다음으로 dup _ mmap () 함수를 호출하여 부모프로쎄스의 기억기구역과 페지표를 복 
제 한다. 

retval = dup _ mmap ( mm , oldmm ) : 
if ( retval ) 
goto free _ pt ； 

dup _ mmap () 함수는 새로운 기억기서술자인 mm 을 전체 기억기서술자의 목록에 삽 
입 한다. ( kernel / fork , c ) 

그후 mm -> mmap 이 가리키는 곳부터 시작하여 부모프로쎄스가 소유하는 구역의 
목록을 검색한다. vm _ area _ struct 기억기구역서술자를 만날 때마다 이것을 복사하여 자 
식 프로쎄 스소유의 구역 목록에 복사본을 넣 는다. 

dup _ mmap () 는 새로운 기억기구역서술자를 삽입한 다음 copy _ page _ range () 를 
( mm / memory . c ) 호출하여 필요하다면 기억기구역에 있는 페지그롭을 배치하는데 필요 
한 페지 표를 만들고 새 페지표입구점을 초기화한다. 

특히 쓰기 가능한 개 인폐지 ( VM _ SHARE 기 발은 설정되지 않고 VM _ MAYWRITE 기 
발이 설정 되 여있는) 에 해 당하는 모든 폐 지 틀을 COW 기 구를 통해서 처 리할수 있도록 부 
모와 자식 모두에 읽기전용으로 표시한다. 완료하기 전에 bulld _ mmap _ rb () 함수를 호 
출해 자식프로쎄 스의 기 억기구역의 빨간색-검은색 나무를 만든다. 마지 막으로 
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copy _ mm () 은 자식의 기억기서술자에서 방식에 의존하는 부분을 초기화하는 
copy_segments () 를 호출한다. 기본적으로 부모프로쎄스가 자신에 맞춘 LDT 를 가진다 
면 이것 역시 복사하여 자식에 할당한다. 

2) 프로쎄스주소공간의 제거 

프로쎄스가 완료될 때 핵심부는 exit _ mm () 함수를 호출해서 프로쎄스가 소유하던 
주소공간을 해 제 한다. ( KERNEL \ exit . c ) 

mm _ release () 함수는 tsk -> vfork_done 완료 ( completion ) 를 기 다리 며 잠들어 있는 
모든 프로쎄 스를 깨 운다. ( KERNELVfork . c ) 

일반적으로 완료하는 프로쎄스를 vforkO 체계호출을 사용하여 만든 경우에만 해당 
대기렬이 비여있지 않다 . (《 clone (), forkO , vforkO 체계호출》을 참고) 또한 처리 
기를 지 연 TLB 방식으로 설정 한다. 

3) 동적기억구역관리 

매 Unix 프로쎄 스는 《 동적 기 억 구역 ( heap ) > 이 라는 프로쎄 스의 동적 기 억 기 요청 을 
처리하기 위한 특수한 기억기구역을 가진다. 기억기서술자의 start_brk 와 brk 마당이 각 
각 동적기 억구역의 시 작과 끝주소를 저 장한다. 

다음 C 서고함수는 프로쎄스가 동적기억기를 요청하고 해제할 때 사용한다. 

malloc ( size ) 

동적기 억 기를 size 바이 트만큼 요청 한다. 성공적 으로 할당하면 시 작하는 기 억기위 치 
의 선형주소를 반환한다. 

calloc ( n , size ) 

크기가 size 인 요소 n 개로 구성된 배렬을 요청한다. 성공적으로 할당하면 배럴의 
요소를 0으로 초기화하고 첫번째요소의 선형주소를 반환한다. 

free ( addr ) 

시작주소가 addr 인 mallocO 나 callocO 로 할당한 기억기구역을 해제한다. 

brk ( addr ) 

직접 동적기억구역의 크기를 변경한다. addr 변수는 current -> mm -> brk 의 새로운 
값을 지정하며 결과값은 기억기구역의 새로운 끝주소이 다. (프로쎄스는 요청한 addr 값과 
결과값이 일 치 하는가를 검 사해 야 한다. ) 

sbrk ( incr ) 

brk () 와 비슷하지만 변수 incr 로 지정한 바이트만큼 동적기억구역크기를 늘이거나 
줄인다는 차이가 있다. 

여기서 brk 0함수는 목록에 있는 다른 함수와 달리 체계호출로 실현하는 유일한 함 
수이다. 
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나머지함수는 C 서고에서 brk () 와 mmapO 을 사용하여 실현한다. 

사용자방식에 있는 프로쎄스가 brk () 체계호출을 하면 핵심부는 sys _ brk ( addr ) 함수 
를 실 행 한다. ( MM \ nommu . c ) 

brk () 체계호출은 기억기구역에서 동작하므로 전체 폐지를 할당하거나 전체 폐지를 
해제한다. 그러므로 이 함수는 addr 의 값을 PAGE_SIZE 의 배수가 되도록 정렬한 후 
그 값이 기억기서술자의 brk 마당값과 같은가를 비교한다. 
newbrk = ( addr + Oxfff) & OxfffffOOO； 
oldbrk - (mm->brk + Oxfff ) 技 OxfffffOOO； 
if (oldbrk == newbrk) { 
mm->brk = addr : 
goto out : 

} 

프로쎄스가 동적기억구역의 크기를 줄여줄것을 요청하면 sys _ brk () 는 

do _ munmap () 를 호출하여 이 작업을 수행한 후 완료한다. 
if (addr <= mm -> brk ) { 

if ( !dc 匕 munmap (mm, newbrk, oldbrk-newbrk) ) 
mm->brk = addr : 
goto out : 

} 

반대로 프로쎄스가 동적기억구역의 크기를 늘여줄것을 요청하면 sys _ brk () 는 먼저 
프로쎄스가 이것을 할수 있는가를 검사한다. 프로쎄스가 제한된 크기이상의 기억기를 할 
당받으러 하면 추가로 기억기를 할당하지 않고 기존의 mm -> brk 값을 반환한다. 
rlim = current -> rlim [ RLIMIT _ DATA ]. rlim _ cur ； 
if (rlim < RLIM_INFINITY && addr - mm -> start_data > rlim ) 
goto out ； 

다음으로 확장한 동적기억구역이 프로쎄스가 소유한 다른 기억기구역과 겹치는가를 
검사하고 겹치면 아무일도 하지 않고 돌아간다. 

if (find_vma_interec^ion(mm，oldbrk, newbrk+PAGE_SIZE)) 
goto out : 

동적기억구역을 확장하기 전에 마지막으로 수행하는 검사는 동적기억구역을 확장할 
만큼 여 유가상기 억 기 가 충분한가를 검 사하는것 이 다. (앞에 서 본《 선형 주소구간 할당》을 
참고) 

if ( ! vm_enough_memory (( newbrk-oldbrk ) » PAGE_SHIFT ) ) 
goto out : 

모두 이상이 없으면 MAP_FIXED 기발을 설정한 상태에서 do _ brk () 함수를 호출한 
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다. 이 함수가 oldbrk 값을 반환하면 할당에 성공한것이며 이 경우 sys _ brk () 는 addr 
값을 반환한다. 그렇지 않으면 이전의 mm -> brk 값을 반환한다. 
if ( do_brk ( oldbrk , newbrk - oldbrk ) == oldbrk ) 
mm->brk = addr ； 
gotoout ； 

do _ brk () 함수는 사실 do _ imnap () 함수를 닉명기억기구역만을 마루도록 단순하게 
만든것 이 다. 

이 함수를 호출하는것은 다음과 같다. 

do _ mmap ( NULL , oldbrk , newbrk _ oldbrrk , PROT_READ | PROT - 
WRITE | PROT - EXEC , MAP_FIXED | MAP _ PRIVATE , 0) 

물론 do _ brk () 는 기억기구역이 디스크에 있는 파일을 배치하지 않는다고 가정하기때문 
에 기억기구역에 대한 몇가지 검사를 하지 않아도 되므로 do _ mmap () 보다 약간 빠르다. 


제 3절. 신호 

신호는 최초에 등장한 Unix 체계에서 프로쎄스사이에 호상작용할수 있게 하려고 도 
입하였다. 핵심부는 체계에서 일어난 어떤 사건을 프로쎄스에 알릴 때도 신호를 사용한 
다. 신호는 근 30여년동안 약간의 변화만 있었을뿐이다. 

1. 신호의 역할 


신호 ( signal ) 는 프로쎄스나 프로쎄스그를에 보낼수 있는 아주 짧은 통보문이다. 실 
례로 《 cloneO 과 forkO , vforkO 체계호출》에서 언급한 SIGCHLD 마크로를 들수 있 
다. Linux 에서 17이라는 값으로 확장하는 이 마크로는 자식프로쎄스중 하나가 중단되 
거나 완료했을 때 부모프로쎄스에 보내는 신호의 식별자이다. 이미 《페지오유례외조종 
기》에서 언급한 SIGSEGV 마크로는 11이라는 값으로 확장하며 프로쎄스가 잘못된 기억 
기를 참조했을 때 해당 프로쎄스로 보내는 신호기식별자이다. 

신호는 다음과 같은 두가지 중요한 목적 이 있다. 

• 특정사건이 발생한 사실을 프로쎄스에 알린다. 

■ 프로쎄스가 자신의 코드에 들어 있는 신호조종기 함수를 실행 하게 한다. 

물론 프로쎄스는 종종 일부 사건에 반응하여 특정함수를 실행해야 하므로 두가지 목 
적은 서로 배타적이지 않다. 

표 3-5 는 80 x 86 용 Linux 2. 6에서 처리하는 처음 31개 신호에 대하여 보여주었다. 
( SIGCHLD 나 SIGSTOP 같은 몇개의 신호번호는 하드웨어구조에 따라 다르다. 게다가 
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SIGSTKFLT 같이 특정 한 하드웨 어 구조에서 만 정의 하는 신호도 있 다.) 기본동작의 의미 
는 다음 부분에서 설명한다. 


표 3-5. _ Linux/i386 내의 처음 31개 산호 


No 

신호이름 

기본 

동작 

설 명 

POSIX 

1 

SIGHUP 

완료 

말단이 나 프로쎄스의 조종권을 

끊음 

예 

2 

SIGINT 

완료 

건반에서 오는 새치기 

예 

3 

SIGQUIT 

쏟기 

건반에서 오는 완료 

예 

4 

SIGILL 

쏟기 

잘못된 명령 

예 

5 

SIGTRAP 

쏟기 

오유추적을 위한 중단점 

아니 

6 

SIGABRT 

쏟기 

비정상적인 완료 

예 

7 

SIGBUS 

쏟기 

모선 오유 

아니 

8 

SIGFPE 

쏟기 

부동소수점례외 

예 

9 

SIGKILL 

완료 

강제적인 프로쎄스완료 

예 

10 

SIGUSR1 

완료 

프로쎄스에서 사용가능 

예 

11 

SIGSEGV 

쏟기 

잘못된 기억기참조 

예 

12 

SIGUSR2 

완료 

프로쎄스에서 사용가능 

예 

13 

SIGPIPE 

완료 

아무도 읽지 않는 관에 쓰기 

예 

14 

SIGALRM 

완료 

실시 간박자수 

예 

15 

SIGTERM 

완료 

프로쎄 스완료 

예 

16 

SIGSTKFLT 

완료 

보조처 리 기 탄창오유 

아니 

17 

SIGCHLD 

무시 

자식 프로쎄스가 멈추거나 완료 

예 

18 

SIGCONT 

계속 

프로쎄 스가 멈춰 있다면 

실행재개 

예 

19 

SIGSTOP 

중지 

프로쎄스실행중지 

예 

20 

SIGTSTP 

중지 

말단에 의해 프로쎄스중지 

예 

21 

SIGTTIN 

중지 

배경프로쎄스의 입력요청 

예 

22 

SIGTTOU 

중지 

배경프로쎄스의 출력요청 

예 

23 

SIGURG 

무시 

소케트에 긴급상태 

아니 

24 

SIGXCPU 

쏟기 

CPU 시 간제 한초과 

아니 

25 

SIGXFSZ 

쏟기 

파일크기제 한초과 

아니 

26 

SIGVTALRM 

완료 

가상시 계 (virtual timer) 

아니 
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27 

SIGPROF 

완료 

프로파일시 계 (profile timer ) 

아니 

28 

SIGWINCH 

무시 

창문크기조정 

아니 

29 

SIGIO 

완료 

입출력이 가능해짐 

아니 

29 

SIGPOLL 

완료 

SIGIO 와 동일 

아니 

30 

SIGPWR 

완료 

전원공급고장 

아니 

31 

SIGSYS 

완료 

잘못된 체계호출 

아니 

32 

SIGUNUSED 

완료 

사용하지 않음 

아니 


이 표에서 설명하는 정규신호 (rgular signal ) 외에도 POSIX 표준에서는 실시간신호 
(reaHime signal ) 라는 새로운 신호를 도입하였다. Linux 에서 이 신호의 범위는 32부 
터 63까지이다. 실시간신호는 항상 대기렬에 쌓이므로 신호를 여러번 보내더라도 모두 
받을수 있다는 점에서 정규신호와 크게 다르다. 

반면에 같은 종류의 정규신호는 대기렬에 들어가지 않는다. 정규신호를 련이어 여러 
번 보내더라도 이것을 수신하는 프로쎄스는 하나만 받는다. Linux 핵심부는 실시간신호 
를 사용하지는 않지만 여러 체계호출을 통해 POSIX 표준을 완전히 지원한다. 프로그람 
작성자는 여러 체계호출을 리용하여 신호를 전송하고 프로쎄스가 수신한 신호에 어떻게 
반응하겠는가를 결정할수 있다. 표 3-6 은 이러한 체계호출에 대하여 보여준다. 이 함수 
의 동작에 관해서는 후에 《신호처리관련체계호출》에서 자세히 설명한다. 


표 3-6. _ 가장 중요한 신호관련체계호 ■ 


체 계 호출 

설 명 

killO 

프로쎄스에 신호를 전송한다. 

sigaction () 

신호와 관련한 동작을 변경한다. 

signal () 

sigaction 0과 비슷하다. 

sigpending () 

대기중인 신호가 있는가를 검사한다. 

sigprocmaskO 

차단할 신호목록을 수정한다. 

sigsuspendO 

신호를 기다린다. 

Rt sigaction () 

실시간신호와 관련한 동작을 변경한다. 

Rt sigpending () 

대기중인 실시간신호가 있는가를 검사한다. 

Rt 一 sigprocmask () 

차단할 실시간신호목록을 수정한다. 

Rt sigqueueinfo 0 

프로쎄스에 실시간신호를 전송한다. 

Rt sigsuspend () 

실시간신호를 기다린다. 

Rt_sugtimedwait 

rt _ sigsuspend () 와 비슷하다. 
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신호의 중요한 특징은 어떤 상태인지 예측할수 없는 프로쎄스에 언제든지 신호를 보 
낼수 있다는 점이다. 실행중이 아닌 프로쎄스에 신호를 보내면 핵심부는 해당 프로쎄스 
가 다시 실행을 재개할 때까지 신호를 저장해야 한다. 신호를 차단 ( block ) 하면 해당 신 
호의 차단을 해제할 때까지 신호전송을 머루어 야 하는데 이것은 신호를 전달할수 있는 
상태가 되기 전에 발생한 신호의 처리문제를 더욱 복잡하게 만든다. 

따라서 핵심부는 신호전송을 다음의 두 단계로 구별한다. 

4 신호발생 

핵심부는 새로운 신호를 보낸것을 나타내려고 신호를 받는 프로쎄스의 서술자를 
갱신한다. 

4 신호분배 

핵 심 부는 신호를 수신한 프로쎄 스의 실 행 상태 를 바꾸거 나 특정한 신호조종기 를 
실행하거나 이 두가지를 모두 실행해서 수신한 프로쎄스가 신호에 반응하게 만든다. 

발생 한 매 신호는 많아야 한번만 분배할수 있다. 신호는 소모성 자원 이 다. 즉 신호기 
를 분배하고 나면 해 당 신호의 기존 존재를 나타내는 모든 프로쎄스서술자정보를 지운다. 

발생하였지만 아직 분배하지 않은 신호를《대기중인 신호 (pending signal ) 》이 라 
고 한다. 어떤 순간이든 한 프로쎄스에서 같은 종류의 신호는 단 하나만 대기할수 있다. 
같은 프로쎄스에 같은 종류의 신호가 추가로 대기하더라도 대기렬에 쌓지 않고 무시한다. 
실시간신호는 이와 달리 같은 종류의 신호가 동시에 여러개 대기할수 있다. 

일반적으로 신호기가 대기중인 상태로 남아있는 시간은 예측할수 없다. 이와 관련해 
서 핵심부에서는 다음과 같은 요인을 고려해야 한다. 

일반적으로 신호를 현재실행중인 프로쎄스(즉 current 프로쎄스)에만 분배한다. 

지정한 신호를 프로쎄스가 선택적으로 차단하고있을수도 있다.(뒤에서 보게 되는 
《차단된 신호집합수정》을 참고) 이 경우 프로쎄스는 차단을 해제할 때까지 해당 신호를 
받지 않는다. 

일반적으로 프로쎄스가 신호조종기함수를 실행할 때 해당 신호를《마스크 ( mask )》 
한다. 즉 조종기가 완료할 때까지 해당 신호를 자동으로 차단한다. 따라서 신호조종기는 
처 리중인 신호가 다시 발생 하더 라도 새 치기당하지 않으므로 조종기함수를 재진입 가능하 
게 작성할 필요가 없 다. 

신호개념은 직관적이지만 핵심부에서 실현은 조금 복잡하다. 핵심부는 다음과 갈은 
작업을 수행해 야 한다. 

- 각 프로쎄스가 어떤 신호를 차단하고있는가를 기억한다. 

- 핵심부방식에서 사용자방식으로 절환할 때마다 어느 프로쎄스에든 도착한 신 
호가 있는가를 검사한다. 대략 10 ms 간격으로 발생하는 시간새치기마다 대부분 이 
작업을 수행 한다. 

- 무시할수 있는 신호인가를 판단한다. 다음에 나오는 조건을 모두 만족할 때 
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신호를 무시할수 있 다. 

> 신호를 받을 프로쎄스를 다른 프로쎄 스가 추적 하지 않는다. (프로쎄스서술자의 
ptrace 마당에 있는 PT_PTRACED 기발이 0이다.) 

> 신호를 받을 프로쎄스가 해당 신호를 차단하지 않는다. 

> 신호를 받을 프로쎄스가 해당 신호를 무시한다. (프로쎄스가 명백히 무시하겠다 
고 지정했거 나 해 당 신호의 기 본동작이 무시 되 고 이 동작을 바꾸지 않았다. ) 

- 신호를 처리한다. 이 경우 프로쎄스실행중 언제 라도 프로쎄스를 조종기함수로 
절환하고 조종기함수를 마친 후 원래 의 실 행 문맥 으로 복귀할수 있 어 야 한다. 

여기에 덧붙여 Linux 는 BSD 와 System V 에서 각기 다른 의미로 사용하는 신호도 
고려해 야 한다. 게 다가 POSIX 규약에도 따라야 한다. 

2. 신호를 받을 때 수행하는 동작 

프로쎄스는 신호에 3가지 방식으로 반응할수 있다. 

1. 명시적으로 신호를 무시한다. 

2. 해 당 신호와 관련한 기 본동작을 수행 한다. (표 3-5 참고) 핵심부에서 미 리 정의 하 
고있는 기본동작은 신호종류에 따라 다르며 다음중 하나이다. 

완료 ( terminate ) 

프로쎄스를 완료한다. 

쏟기 ( dump ) 

프로쎄스를 완료하고 가능하면 실행문맥을 포함하는 core 과일을 만든다. 파일 
은 오유추적용도로 사용할수 있다. 

무시 ( ignore ) 

신호를 무시 한다. 

중지 ( stop ) 

프로쎄스를 멈춘다. 즉 프로쎄스를 TASK_STOPPED 상태로 만든다. 

계 속 ( continue ) 

프로쎄 스가 멈 추고있 다면 ( TASK _ STOPPED ) 프로쎄 스를 TASK_RUNNING 
상태로 만든다. 

3. 해당 신호조종기함수를 호출하여 신호를 포착한다. 

신호를 차단하는것과 신호를 무시하는것이 다르다는데 류의하자. 신호를 차단하는 
동안에 는 신호를 분배하지 않고 차단을 해제한 후에 만 분배한다. 무시 한 신호는 항상 분 
배하지 만 더 는 동작을 취 하지 않는다. 

SIGKILL 과 SIGSTOP 신호는 무시 하거나 잡거나 차단할수 없으며 항상 기본동작을 
실행해야 한다. 따라서 사용자는 적절한 특권만 있다면 어떤 프로쎄스든 프로그람이 어 
떻게 방어하든지 상관없이 SIGKILL 과 SIGSTOP 신호를 사용하여 프로쎄스를 완료하거 
나 멈출수 있다. 


3. 신호관련자료구조 
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핵심부는 체계에 있는 모든 프로쎄스에 대해 현재 어떤 신호가 대기중이거나 마스크 
되 여있는지 또한 모든 신호를 처 리 하는 방법 에 관한 정 보를 유지 해 야 한다. 이 를 위 해 
핵심부는 프로쎄스서술자를 통해 접근할수 있는 여러 자료구조를 사용한다. 그림 3-12 
는 가장 중요한 자료구조를 보여준다. 

표 3-7 은 프로쎄스서술자에 있는 신호처리관련마당을 렬거한다. 
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표 3-7. _ 신호처리5强 프로쎄스서술자마당 


형 

이 름 

설명 

Spinlock_t 

sigmask_lock 

pending 과 blocked 를 보호하는 
스핀 잠그기 

struct signal_struct * 

sig 

프로쎄스의 신호서술자를 가리키 

는 지적자 

sigsetj : 

blocked 

차단된 신호의 마스크 

struct sigpending 

pending 

대기중인 신호를 저장하는 자료구 

조 

unsigned long 

sas ss sp 

교체신호조종기탄창의 주소 

size t 

sas ss size 

교체신호조종기탄창의 크기 

int (*) (void *) 

notifier 

장치 구동프로그람에 서 프로쎄 스의 
일부 신호를 차단할 때 사용하는 

함수를 가리키는 지적자 

void * 

notifier_data 

바로 앞마당인 통보 ( notifier ) 함수 

에서 사용할수 있는 자료를 가리 

키는 지적자 

sigset_t * 

notifier_mask 

통보문함수를 통해 구동프로그람 
에서 차단하는 신호의 비트마스크 


blocked 마당은 현재프로쎄스가 마스크한 신호를 저장한다. 이 마당의 형은 각 신호 
종류마다 한 비트씩 할당하는 비트의 배렬 sigset _ t 이 다. 

매 unsigned _ long 수자는 32 bit 이므로 Linux 에서 선언할수 있는 신호의 최대 개 
수는 64이다 . (_ NSIG 마크로가 이 값을 나타낸다.) 번호가 0인 신호는 없기때문에 
sigset _ t 변수의 비트색 인값에 1을 더하면 해당 신호번호가 된다. 1에서 31까지는 표 3- 
5에 렬거한 신호에 해당하고 32에서 64까지는 실시간신호에 해당한다. 

프로쎄스서술자의 sig 마당은 프로쎄스가 매 신호를 처리할 방법을 서술하는 신호서 
술자 (signal descriptor ) 를 가러킨다. 이 서술자는 다음과 같이 정의하는 
signal _ struct 구조체 에 들어 간다. 

1절의 《 cloneO , forkO , vforkO 체계호출》에서 언급한것처럼 CLONE_SIGHAND 
기발을 설정하여 cloneO 체계호출을 하면 이 자료구조를 여러 프로쎄스사이에서 공유할수 
있다. count 마당은 signal_struct 자료구조를 공유하는 프로쎄스의 개수를 나타내고 
siglock 마당은 이 자료구조에 배 타적 인 접근을 하는데 사용한다. action 마당은 매 신호 
의 처리방법을 지정하는 k _ sigaction 구조체 64개의 배렬이다. 
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어떤 방식에서는 신호에 핵심부에서만 볼수 있는 속성을 부여한다. 이런 신호속성은 
k_sigac 仕 on 구조체에 저장한다. 이 구조체는 사용자방식 프로쎄스에서 볼수 없는 속성과 사 
용자방식 프로쎄스가 볼수 있는 모든 속성을 담은 좀 더 포괄적인 sigaction 구조체를 함께 
포함한다. 80 x 86 환경에서 사용자방식프로쎄스는 모든 신호속성을 볼수 있다. 따라서 
k_sigac 仕 on 구조체는 아래에 렬거한 마당을 담은 sigaction 형의 sa 구조체 하나만 포함한다. 

1) sa_handler 또는 sa_sigaction 

둘다 구조체내에 있는 동일한 마당을 가리킨다. 이 마당은 수행 할 동작의 류형을 지 
정한다. 이 값은 신호조종기를 가리키는 지적자이거나 기본동작을 실행해야함을 의미하 
는 SIG_DFL (값이 0이다)，신호를 무시함을 의미하는 SIG_IGN (값이 1이다.)일수 있 
다. 이 마당의 서로 다른 두 이름은 신호조종기의 서로 다른 두 류형 에 해 당한다. 

sa_flags 

이 기발의 집합은 신호를 처리하는 방법을 나타낸다. 표 3-8 에서 일부 기발에 대하 
여 볼수 있다. 

sa_mask 

이 sigset_t 변수는 신호조종기를 실행할 때 마스크할 신호를 지정한다. 


표 3-8. 

산호처리방법을 지정하는 기발 

기발이름 

설명 

SA NOCLDSTOP 

프로쎄스가 멈출 때 부모에 SIGCHLD 를 보내지 않는다. 

SA _ NODEFER , 

SA—NOMASK 

신호조종기 를 실행할 때 신호를 마스크하지 않는다. 

SA . RESETHAND , 

SA.ONESHOT 

한번 신호조종기를 실행한 후에는 기본동작으로 돌아간다. 

SA ONSTACK 

신호조종기 용으로 교체 탄창 (alternate stack ) 을 사용한다. 

SA.RESTART 

새 치기된 체계 호출을 자동으로 재시 작한다. 

SA_SIGINFO 

신호조종기 에 추가정보를 제공한다. 


현재 대기중인 신호를 관리하는데는 프로쎄스서술자에 있는 pending 마당을 사용한 
다. 이 마당은 다음과 같이 정의하는 struct sigpending 자료구조로 구성한다. 

signal 마당은 프로쎄스에 대기중인 신호를 나타내는 비트마스크이고 head 와 taill 
은《대기중인 신호대기렬 (pending signal queue ) 》의 첫번째와 마지막항목을 가리키 
는 지적자이다. 이 대기렬은 struct sigqueue 자료구조의 목록으로 실현한다. 

nr _ queued_signals 변수는 대기렬에 있는 항목의 개수를 저장하고 

max _ queued_signals 는 대기렬의 최대길이를 정의한다. (기본값은 1024이지만 체계관 
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리자가 / proc / sys / kernel / rtsig _ max 값을 쓰거나 적절히 sysctlO 체계호출을 사용하 
여 바끌수 있다.) 

siginfo _ t 는 발생 한 특정 한 신호 하나에 관한 정보를 저장하는 128 byte 크기의 자료 
구조이다. 여기에는 다음과 같은 항목이 있다. 
si_signo 
신호번호 
si_errno 

신호를 발생시킨 명령의 오유 코드, 오유가 발생하지 않았다면 0이다. 
si_code 

누가 신호를 발생시켰는가를 구별하는 코드(표 3-9 참고) 


표 3-9. 

중요한 산호전송 

코드이름 

전송자 

SI—USER 

kill () 과 raise () 

SI.KERNEL 

일반핵심부함수 

SI-TIMER 

시 계 만료 

SI—ASYNCIO 

비동기적인 입출력완료 


jslfields 

신호종류에 따라 다른 정 보를 저 장하는 공용체 ( unton ) 례 를 들어 SIGKILL 신호가 
발생 하면 이 에 해 당하는 siginfo _ t 자료구조의 이 마당에 신호전송자의 PID 와 UID 를 기 
록한다. 반면에 SIGSEGV 신호가 발생하면 접근하려 다 신호가 발생 한 기 억기주소를 저 
장한다. 

2) 신호자료구조에 대한 연산 

핵심부는 신호를 다룰 때 여러가지 함수와 마크로를 사용한다. 다음 설명에서 set 는 
sigset _ t 변수에 대한 지적자이고 nsig 는 신호번호, mask 는 unsigned long 형의 비트마 
스크 (bit mask ) 이 다. 

sigempty set ( set ) 와 sigfillset ( set ) 

sigset _ t 변수에 있는 모든 비트를 0이나 1로 설정한다. 

sigaddset ( set , nsig ) 와 sigdelset ( set , nsig ) 

sigset_t 변수에서 신호 nsig 에 해당하는 비트를 각각 1이나 0으로 설정한다. 
sigaddsetmask ( set , mask ) 와 sigde 1 setmask ( set , mask ) 

sigset _ t 변수에서 mask 에 해 당하는 모든 비트를 각각 1이 나 0으로 설정 한다. 이 함 
수는 1에서 32사이의 신호에서만 사용할수 있다. 
sigismemmber ( set , nsig ) 
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sigset _ t 변수에서 신호 nsig 에 해 당하는 비트값을 돌려 준다. 
sigmask ( nslg ) 

신호 nsig 에 해 당하는 비트색 인값을 만든다. 즉 핵심부는 sigset _ t 형의 변수에서 특 
정신호에 해당하는 비트프레 임을 설정하거나 지우거나 검사할 때 이 마크로를 사용하여 
해당 비트를 추출할수 있다. 

slgandsets ( d , si , s 2) 와 slgorsets ( d , si , s 2), signandsets ( d , si , s 2) 

si 과 s 2 가 가리키는 sigset _ t 형의 변수사이에 각각 론리 AND 나 론리 OR , 론리 
NAND 연산을 수행한 후 결과를 d 가 가리키는 sigset _ t 변수에 저장한다. 
sigtestsetmask ( set , mask ) 

mask 에서 1 로 설정 하는 비트중 하나라도 sigset _ t 변수에서 설정 하고있으면 1, 그 
렇지 않으면 0을 반환한다. 번호가 1에서 32사이인 신호에서만 사용할수 있다. 
siginitset ( set , mask ) 

sigset _ t 변수에 서 신호 1에 서 부터 32에 해 당하는 아래비 트를 mask 에 있는 비 트 
값으로 초기화하고 신호 33에서부터 63에 해당하는 비트를 모두 0으로 지운다. 
siginitsetinv ( set , mask ) 

setsigset_t 변수에서 신호 1에서부터 32에 해당하는 아래비트를 mask 에 있는 비트 
값에 보수를 취한 값으로 초기화하고 신호 33에서부터 63에 해당하는 비트를 모두 1로 
설정 한다. 

signal—pending ( p ) 

프로쎄스서술자 * p 가 가리키는 프로쎄스에 차단하지 않는 대기중인 신호가 있으 
면 1( 참)， 그렇지 않으면 0( 거짓)을 반환한다. 이 함수는 프로쎄스서술자의 
sigpending 마당을 검사함으로써 간단하게 실현한다. 
recalc_sigpending ( t ) 

다음과 같이 프로쎄스서술자 하가 가리키는 프로쎄스의 sig 와 blocked 마당을 검 
사하여 차단하지 않는 대기중인 신호가 있는가를 검사하고 이에 따라 sigpending 마 
당을 0이나 1로 설정한다. 

ready = t -> pending . signal , sig [1] & 나;-〉 blocked . sig [ l ] : 
ready |= t -> pending . signal . sig [0] & ~ t -> blocked . sig [0] : 

t->sigpending = (ready ! = 0); 
void recalc_sigpending ( void ) 

{ 


recal c _ sigpending_tsk (cu rrent ); 


fastcall void recalc _ sigpending_tsk (struct task_struct * t ) 
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if ( t -> signal -> group _ stop_count > 0 | | 

PENDING (& t -> pending , & t -> blocked ) | | 

PENDING (& t -> signal -〉 shared _ pending , & t -> blocked )) 
set _ tsk _ thread_flag ( t , TIF _ SIGPENDING ); 

else 

clear _ tsk _ thread_f lag ( t , TIF _ SIGPENDING ); 

} 

flush _ signals ( t ) 

프로쎄스서술자 대가 가리키는 프로쎄스로 전달한 모든 신호를 삭제 한다. 
t -> sigpending 과 t -> pending . signal 마당을 모두 지우고 대기중인 신호대기렬을 
비운다. 

4. 신호발생 

핵심부나 프로쎄스가 다른 프로쎄스로 신호를 보내면 핵심부는 send _ sig _ info () 나 
send _ sig (), force _ sig (), force _ sig _ info () 함수를 호출하여 신호를 발생 시킨다. 이 함 
수는 필요한대로 프로쎄스서술자를 갱신하여 앞서 《신호의 역할》에서 설명한 신호처리 
의 첫번째 단계를 완수한다. 이 함수는 신호를 분배하는 두번째 단계를 직접 수행하지는 
않지만 신호의 종류와 프로쎄스의 상태에 따라 프로쎄스를 깨우거나 강제로 신호를 받게 
할수 있다. 

1) send _ sig _ info () 와 send _ sig () 함수 
sig 

신호번호 
info 

siginfo _ t 표의 주소이거나 의미가 특별한 두가지 값(사용자방식프로쎄스가 신호를 
보냈음을 의미하는 0과 핵심부방식이 보냈음을 의미하는 1) 중 하나이다. 
t 

신호를 받을 프로쎄스의 프로쎄스서술자를 가리키는 지적자이다. 
send _ sig _ info 0함수는 먼저 변수가 정확한가를 검사한다. 
if (sig < 0 11 sig > _ NSIG ) 
return - EINVAL ; 

다음으로 사용자방식프로쎄스가 보낸 신호인가를 검사한다. 이것은 info 값이 0이거 
나 siginfo _ t 표의 si _ code 마당이 0이 나 부수일 때(정수값은 핵 심부함수가 신호를 보냈 
다는것을 의미한다.)이 다. 

사용자방식프로쎄스에서 보낸 신호라면 이 작업을 할 권한이 있는가를 판단한다. 
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다음 조건가운데서 하나라도 해당할 때에만 신호를 분배한다. 

■ 신호를 보낸 프로쎄스의 소유자가 적 합한 특질을 갖추어 야 한다.(이것은 보통 
체 계 관리 자가 신호를 발생 시 켰 다는것 을 의 미 한다. ) 

■ 신호가 SIGCONT 이고 신호를 받는 프로쎄스와 보내는 프로쎄스가 같은 가입대 
화조종안에 있다. 

. 두 프로쎄 스가 같은 사용자소유이다. 

sig 변수값이 0이면 신호를 발생시키지 않고 즉시 함수를 완료한다. 0은 유효한 신 
호번호가 아니므로 신호를 보내는 프로쎄스가 받을 프로쎄스에 신호를 전달하는데 필요 
한 권한이 있는가를 검사할수 있게 한다. 또한 신호를 받는 프로쎄스가 
TASK _ ZOMBlE 상태에 있어도 즉시 함수를 완료한다. 이것은 siginfo _ t 표의 해제여부 
를 검사하여 알수 있다. 
if Osig | | ! t -> sig ) 
return 0； 

이제야 핵심부가 기초적인 검사를 끝냈으므로 신호와 관련한 자료구조를 다루기 시 
작한다. 경쟁조건을 막으려고 새치기를 금지하고 신호를 받는 프로쎄스의 스핀잠그기 하 
나를 획득한다. 

spin _ lock_irqsave (& t -> sigmask _ lock , flags ) : 

일부 종류의 신호는 신호를 받는 프로쎄스에서 대기중인 다른 신호를 없앨수도 있다. 
따라서 다음경우 가운데서 하나에 해 당하는가를 검사한다. 

■ sig 가 SIGKILL 이나 SIGCONT 신호인 경우. 신호를 받는 프로쎄스가 멈춘 
상태이면 프로쎄스를 TASK _ RUNNING 상태로 바꿔서 이 프로쎄스가 do _ exit () 함 
수를 실 행 하거 나 ( SIGKILL ) 실 행 을 계 속하게 한다. ( SIGCONT ) 

나아가서 신호를 받는 프로쎄스에 SIGSTOP 이나 SIGTSTP , SIGTTOU , 
SIGTTIN 신호가 대기중이면 이것을 모두 제거한다. 
if ( t->state == TASK _ STOPPED ) 
wake _ up_p roces s ( t ) : 
t -> exit_code = 0； 

rm _ sig _ from_queue ( SIGSTOP , t ) ; 
rm _ sig _ from_queue ( SIGTSTP , t ) : 
rm _ sig _ from_queue ( SIGTTOU , t ) : 
rm _ sig _ from_queue ( SIGTTIN , t ) : 

rm _ sig _ from _ queue 0 함수는 t -> pending . signal 에서 첫 번째 변수로 전달하는 
신호번호에 해당하는 비트프레임 0으로 지우고 프로쎄스의 대기중인 신호대기렬에서 
해당 신호번호에 해당하는 항목을 모두 제거한다. 

• SIGSTOP 이나 SIGTSTP , SIGTTIN , SIGTTOU 중 하나인 경우. 신호를 
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받는 프로쎄스에 SIGCONT 신호가 대 기중이면 이것 을 제거한다. 
rm _ sig _ from_queue ( SIGCONT , t ); 

다음으로 send _ sig _ from _ info () 함수는 새로운 신호를 즉시 처러할수 있는가를 검 
사한다. 이 경우 이 신호의 분배단계도 처 리한다. 
if ( ignored_signal ( sig , t )) { 

spin _ unlock_irqrestore (& t -> sigmask _ lock , flags ) : 
return 0； 


ignore _ signal () 함수는《신호의 역할》에서 언급한 신호를 무시하는 3가지 조건을 
모두 만족하면 1을 반환한다. 그러나 POSIX 요구사항을 따르기 위해 SIGCHLD 신호는 
특별 하게 처 리 한다. POSIX 에 서 는 SIGCHLD 신호를 무시하도록 직 접 설정 한것 과 기 본 
동작을 그대 로 실 행하도록 남겨 둔것 을 구별 한다. 

부모프로쎄 스가 명시 적 으로 SIGCHLD 신호를 무시하겠다고 설정 하면 핵 심부는 자식 
프로쎄스가 완료하면 이것을 깨끗이 정리하여 좀비가 되는것을 막는다. 그러므로 
ignored _ signal () 함수는 다음과 같이 동작한다. 신호를 명시적으로 무시하면 0을 반환 
하지만 기 본동작이 《무시》되면서 기본동작을 바꾸지 않았으면 1을 반환한다. 

ignored _ signal () 함수가 1을 반환하면 신호를 받는 프로쎄스의 siginfo _ t 표를 갱신 
하면 안되고 send _ sig _ info () 함수는 완료한다. 해당 신호는 더는 대기중이 아니므로 비 
록 받는 프로쎄스가 이 신호를 볼수 없지만 신호를 효과적으로 분배한것으로 된다. 

ignored _ signal () 함수가 0을 반환하면 후에 신호의 분배단계를 처리하게 해야 한다. 
따라서 send _ sig _ info () 는 신호를 받는 프로쎄스가 자기에게 새로운 신호가 왔다는것을 
알수 있도록 프로쎄스의 자료구조를 갱신해 야 한다. send _ sig _ info () 은 같은 신호가 이미 
대기중이면 그냥 완료한다. 사실 발생한 정규신호는 실제로 대기렬에 계속 쌓이지 않으므 
로 프로쎄스의 대기중인 신호대기렬에서 모든 정규신호는 많아야 하나만 있을수 있다. 
if (sig < 32 && sigismember (& t -> pending . signal , sig )) { 
spin _ unlock _ irqrestore (& t -> sigmask _ lock , flags ) : 


return 0； 


이제 send _ sig _ info () 함수는 신호를 받는 프로쎄스의 대기중인 신호대기렬에 새 항 
목을 추가해야 한다. 이것은 send _ signal 0함수를 호출해서 수행한다. 
retval = send_signal ( sig , info , & t -> pending ) : 

send _ signal 0 함수는 대기중인 신호대기렬의 길이를 검사한 후 새로운 sigqueue 
자료구조를 추가한다. 

if ( atomic _ read (& t -> user -> sigpending ) < 

t->rlim [ RLIMIT _ SIGPENDING ]. rlim _ cur ) 
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q = kmem _ cache_alloc ( sigqueue _ cachep , GFP _ ATOMIC ); 
if ( q ) { 

q->flags = 0； 

q->user = get _ uid ( t -> user ) ； 
atomic_inc (技 q -〉 user -〉 sigpending ) ； 
list 一 add 一 tail (& q -> list , 技 signals —〉 list ); 
switch ((unsigned long ) info ) { 



q -> info . si_code 
q -> info . si_pid = 
q -〉 info . si_uid = 
break ； 


= SI . KERNEL ； 
0； 

0； 


copy_siginfo (技 q -〉 info , info ) ； 
break ； 


send _ signal ( ) 함수는 대기 렬에 추가한 새 항목의 siginfo_t 표를 설정 한다. 
send _ signal () 함수에 전달한 info 변수는 이전에 만든 siginfo_t 표를 가리키거나 상 
수 0( 사용자방식프로쎄스에서 보낸 신호인 경우)이나 1( 핵심부함수에서 보낸 신호인 경 
우)을 저장한다. 

이미 대기렬에 max _ qtieued_signals 개의 항목이 있거나 새로 sigqueue 자료구조를 
할당할 기억기가 부족해서 대기렬에 새 항목을 추가하는것이 불가능하면 발생한 신호를 
대기렬에 넣을수 없다. 신호가 실시간신호이고 신호를 대기렬에 넣으라고 직접 요청하는 
체계 호출 ( rt _ sigqeueinfo () 같은)을 통해 신호를 전달한 경우라면 send _ signal 0함수는 
오유코드를 반환하고 그렇지 않으면 t -〉 pending.signal 의 해당 비트를 설정 한다. 
if (sig >= SIGRTMIN 技技 info 技技 (unsigned long)info != 1 
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&& info -> si_code != SI _ USER ) 

/* 

* 대기렬 넘침. 신호가 rt 이고 kill () 보다 다른것을 리용하는 

* 사용자에 의해 보내졌다면 과제를 중지. 

*/ 

return - EAGAIN ; 

if (((unsigned long)info > 1) && ( info -> si_code == SI — TIMER )) 
ret = inf o -> si_sy s _ private : 


out _ set ： 

sigaddset (Ssignal s -> signal , sig ); 
return ret ； 


대기중인 신호대기렬에 해당 항목을 추가할 공간이 없더라도 프로쎄스가 신호를 받을 
수 있게 하는것이 중요하다. 례를 들어 너무 많은 기억기를 소비하는 프로쎄스가 있다고 
하자. 핵심부는 사용가능한 기 억기 가 없더 라도 kill 0체계 호출이 성공하도록 해 야 한다. 그 
렇지 않으면 체계관리자가 해당 프로쎄스를 완료하지 못해 체계를 복구하지 못할수 있다. 

send _ signal () 함수가 성공적으로 끝나고 해당 신호를 차단하고있지 않으면 신호를 
받는 프로쎄스는 살펴야 하는 새로운 대기중인 신호를 가지게 된다. 
if ( ! retval && ! sigismember (& t -> blocked , sig ) ) 

signal _ wake_up ( t ) : 

signal _ wake _ up () 함수는 3 가지 일을 수행한다. 

1. 신호를 받는 프로쎄스의 sigpending 기발을 설정 한다. 

2. 신호를 받는 프로쎄스가 이미 다른 CPU 에서 실행중인가를 확인한다. 이 경우에 
는 그 CPU 로 처 리기 간 새 치기를 보내서 현재 프로쎄스를 강제 로 다시 순서짜기 하게 한 
다.(《 처 리 기 간새치 기 처 리》참고) 프로쎄 스는 schedule () 함수에 서 돌아올 때 대 기 중인 
신호가 있는가를 확인하므로 처리기간 새치기는 신호를 받는 프로쎄스가 이미 실행중인 
경우 새로운 대기중인 신호를 빨리 인식하게 한다. 

3. 신호를 받는 프로쎄스가 TASK _ INTERRUPTIBLE 상태인가를 검사한다. 이 
경우에는 wake _ up _ process () 함수를 호출하여 프로쎄스를 깨운다. 

wake _ up _ process 0 함수는 우에서 서술한바가 있다. 

마지막으로 send _ sig _ info () 함수는 새치기를 다시 허용하고 스핀잠그기를 해제한 
후 send_signal () 의 오유코드를 반환한다. 
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spin _ unlock _ irqrestore (& t -> sigmask _ lock , flags ) : 

return retval : 

send _ sig () 함수는 send _ sig _ info () 함수와 비슷하다. 이 함수는 info 대신 priv 기발 
을 변수로 받는다. 이 기발은 핵심부가 신호를 보내는 경우 1, 프로쎄스가 보내는 경우 
에는 0이다. 핵심부는 send _ sig () 함수를 send _ sig _ info () 의 특별한 경우로 처리 하여 
실현한다. 

return send _ sig_info ( sig , (void *) ( long ) (priv != 0) , t ) : 

2) force _ sig _ info () 와 force _ sig () 함수 

force _ sig _ info ( sig , info , t ) 함수는 핵심부가 프로쎄스에 무시 하거나 차단할수 없 
는 신호를 보낼 때 사용하는 함수이 다. ( KERNEL \ signal . c ) 

이 함수는 send _ sig _ info () 와 동일한 변수를 받는다. force _ sig _ info () 함수는 신호 
를 받는 프로쎄 스서 술자 호에 들어있는 sig 마당이 가리 키 는 signal _ struct 자료구조를 리 
용해서 작업한다. 

force _ sig () 는 force _ sig _ info () 와 비슷하다. 이 함수는 핵심부가 신호를 보내는 
용도로만 제한된다. 핵심부는 이 함수를 force _ sig _ info () 함수의 특별한 경우로 처리하 
여 실현한다. 

5. 신호분배 

핵심부가 신호의 도착을 알아차리고 바로 앞에서 본 함수중 하나를 호출하여 신호를 
받는 프로쎄스의 프로쎄스서술자에 필요한 작업을 하였다고 하자. 그러나 그 당시에 해 
당 프로쎄스가 CPU 에서 실행중이 아니라면 핵심부는 신호를 분배하는 일을 뒤로 미룬 
다. 이제는 핵심부가 프로쎄스의 대기중인 신호를 처리하려고 수행하는 작업에 대하여 
보기로 하자. 

핵심부는 프로쎄스가 사용자방식에서 실행을 재개하도록 하기 전에 프로쎄스서술자 
의 sigpending 기발의 값을 검사한다. 따라서 핵심부는 새치기나 례외처리를 마칠 때마 
다 대기중인 신호가 있는가를 검사한다. 

차단하지 않는 대 기중인 신호를 처 리하기 위해 핵심부는 do _ signal () 함수를 호출한다. 

이 함수는 다음과 갈은 두개의 변수를 받는다. 

regs 

현재프로쎄 스의 사용자방식등록기내 용을 저 장한 탄창령역 의 주소 

oldset 

do _ signal () 함수가 차단된 신호의 비트마스크배렬을 저장할 변수의 주소. 이 비트 
마스크배럴을 저장할 필요가 없을 때에는 NULL 값을 담는다. 

do _ signal 0함수는 먼저 자기가 새치기를 통해 호출됐는지 검사해서 이 경우 그냥 
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완료한다. 그렇 지 않으면 프로쎄 스가 사용자방식 에 서 실 행중일 때 례 외 가 발생하여 자기 
가 검 사하는데 이 경 우 다음코드를 실 행한다. 

if (( regs->xcs & 3) != 3) 

return 1； 

그러나《체계호출재실행》에서 보지만 이것은 신호가 체계호출을 새치기할수 없다 
는 사실을 의미하지는 않는다. 

oldset 변수가 NULL 이면 이것을 current -> blocked 마당주소로 초기화한다. 

述 ( Ioldset ) 

oldset = &cur rent->b 1 ocked : 

do_signal () 함수의 핵심은 차단하지 않는 대기중인 신호가 없을 때까지 
dequeue _ signal 0함수를 반복해서 호출하는 순환이 다. 

dequeue_signal () 의 결과값을 변수 signal 저장한다. 이 값이 0이면 대기중인 
모든 신호를 처리하여 do _ signal () 을 마처도 된다는것을 의미한다. 결과값이 0이 아닌 
동안은 처리해야 할 대기중인 신호가 있다는것을 의미하므로 dc 匕 signalO 은 현재 신호 
를 처리한 후 다시 dequeue_signal () 을 호출한다. 

dequeue _ signal () 은 항상 번호가 가장 낮은 대기중인 신호를 먼저 고려한다. 그러 
고 자료구조를 갱신하여 해당 신호가 더는 대기중이 아니라고 표시한 후 그 번호를 반환 
한다. 이 작업은 current -> pending . singal 의 해당 비트를 지우는 일과 current - 
> sigpending 의 값을 갱신하는 일도 포함한다. mask 변수에서 1인 비트는 차단하는 신 
호를 나타낸다. 

현재 대기중인 신호와 차단하는 신호 ( mask 의 보수)를 AND 연산한다. 그래서 남는 
것 이 있다면 신호를 프로쎄스에 분배해야 한다. ffz () 함수는 변수로 전달한 값에서 0이 
아닌 첫번째 비트의 색인값을 반환한다. 이 값을 통해서 분배할 가장 낮은 신호번호를 
계산한다. 

do _ signal () 함수에서 dequeue _ signal 0 이 돌려준 번호를 가진 대기중인 신호를 
어떻게 처리하는가를 보기로 하자. 먼저 다른 프로쎄스가 수신프로쎄스인 current 를 감 
시하고있는가를 검사한다. 이 경우 do _ signal () 함수는 신호를 처리함을 감시하는 프로 
쎄스에서 알수 있게 nc ^ ify _ parent () 와 schedule 0함수를 호출한다. 

다음으로 do _ signal () 은 처리할 신호의 k _ sigaction 자료구조의 주소를 변수 ka 에 
저장한다. 

ka = & current -> sig->action [ signr -1] : 

여기에 있는 내용에 따라 신호의 무시，기본동작을 수행하거나 신호조종기를 수행하 
는 3가지 동작중 하나를 실행 한다. 

1) 신호무시 

분배한 신호를 명시적으로 무시한다면 do _ signal () 함수는 일반적으로 순환을 계속 
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실행하여 대기중인 다른 신호를 처리한다. 여기에서는 앞서 설명한 한가지 례외에 대하 
여 보기로 한다. 

if ( ka -> sa . sa_handler == SIG — IGN ) { 
if (signr == SIGCHLD ) 

while (sys_wait4 (-1, NULL, WNOHANG, NULL) > 0) 

/* 아무 일도 하지 않음 */； 

continue ； 

} 

분배한 신호가 SIGCHLD 라면 wait 4() 체계호출의 봉사루린인 sys _ wait 4() 를 호출 
하여 프로쎄스가 자식프로쎄스에 대한 정보를 읽도록 만들어서 완료한 자식프로쎄스에 
남아있는 기 억 기를 깨 끗이 정 리 하게 한다. ( KERNEL \ exit . c ) 

2) 신호의 기본동작수행 

ka -> sa . sajiandler 가 SIG _ DFL 이라면 do _ signal 0함수는 해당 신호의 기본동작 
을 수행해야 한다. 유일한 례외로 앞에서 본《신호를 받을 때 수행하는 동작》에서 설 
명한것처럼 수신프로쎄스가 init 이 라면 신호를 무시한다. 
if ( current->pid == 1) 
continue ； 

다른 프로쎄스라면 신호의 종류마다 기본동작이 다르므로 signr 값을 바탕으로 
switch 문을 수행 한다. 

기본동작이 《무시》인 신호는 쉽게 처 리한다. 

case SIGCONT： case SIGCHLD： case SIGWINCH： 

continue ； 

기본동작이 《 중지》인 신호는 현재프로쎄스를 멈추게 할수 있다. 이를 위해 
do _ signal () 은 current 의 상태를 TASK _ STOPPED 로 바꾸고 schedule 0함수를 호 
출한다 .( 《 scheduleO 함수》를 참고) 또한 부모프로쎄스가 SIGCHLD 신호에 대해 
SA _ NOCLDSTOP 기발을 설정 하지 않았으면 current 의 부모프로쎄스에 SIGCHLD 신 
호를 보낸다. 

case SIGTSTP： case SIGTTIN： case SIGTTOU： 
if ( is _ orphaned_pgrp ( current -> pgrp ) ) 
continue ； 
case SIGSTOP： 

current->state = TASK _ STOPPED : 
current -> exit_code = signr ； 
if ( current -> p _ pptr->sig && ! ( SA_NOCLDSTOP 沒 

current -> p _ pptr -> sig->action [ SIGCHLD -1]. sa . sa _ flags )) 
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notify_parent ( current , SIGCHLD ) ; 
schedule ( ) ； 
continue ； . 

SIGSTOP 와 다른 신호에는 미묘한 차이가 있다. SIGSTOP 은 항상 프로쎄스를 멈 
추게 하지만 다른 신호는 프로쎄스가 고아프로쎄스그룹 (orphaned process group )’ 
에 속하지 않는 경우에만 멈추게 한다. POSIX 표준에서는 어떤 프로쎄스그롭에 있는 프 
로쎄스중 하나라도 같은 대화조종의 프로쎄스그롭에 속하는 프로쎄스를 부모로 하는 한 
고아프로쎄 스그룹이 아니 라고 정 의 한다. 

기본동작이 《쏟기》인 신호는 프로쎄스의 현재 작업등록부에 core 파일을 생성할수 
있다. 이 파일은 프로쎄스의 주소공간과 CPU 등록기내용전체를 출력한것이다. 
do _ signal () 은 core 파일을 생성한 후 프로쎄스를 소멸한다. 남은 신호 18개의 기본동 
작을《완료》하고 그냥 프로쎄스를 소멸한다. 
exit_code = sig _ nr ； 

case SIGQUIT ： case SIGILL ： case SIGTNP : 
case SIGABRT ： case SIGFPE ： case SIGSEGV : 
case SIGBUS ： case SIGSYS ： case SIGXCPU ： case SIGXFSZ ： 
if ( do_coredump ( signr , regs )) 
exit_code != 0 x 80； 
default ： 

sigaddset (技 current -〉 pending . signal , signr ) ; 
recalc—sigpending ( current ) ; 
current->flags != PF _ S 1 GNALED ； 
do_exit ( exit _ code ) ； 

do _ exit () 함수는 신호번호와 coredump 를 수행한 경우에 설정하는 기발을 OR 연산 
을 한 값을 입력변수로 받는다. 이 값은 프로쎄스완료코드를 설정하는데 사용한다. 이 
함수는 현재프로쎄 스를 완료하므로 호출한곳으로 돌아오지 않는다. 

3) 신호포착 

신호에 별도의 조종기가 있다면 do _ signal 0함수는 handle _ signal 0을 호출해서 
해 당 조종기를 실행 하게 한다. 

handle_signal ( signr , ka , & info , oldset , regs ) ； 
return 1； 

do _ signal () 이 신호를 하나만 처 리 한 후에 완료한다는 점 에 주의 를 돌려야 한다. 
대기중인 다른 신호는 다음에 do _ signal () 을 호출할 때까지 신경쓰지 않는다. 이리 
한 접근법은 신호를 순서대로 처리함을 보장한다. 

신호조종기를 실행하려면 사용자방식과 핵심부방식사이를 절환할 때 탄창을 조작해 
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야 하므로 이것은 어느정도 복잡한 작업이다. 이제부터 이때 정확하게 무슨 일을 해야 
하는가에 대하여 설명 하려고 한다. 

신호조종기 는 사용자방식 프로쎄스에 서 정의 한 함수로 사용자방식 코드토막에 들어 있다. 
handle _ signal () 함수는 핵 심 부방식 에 서 동작하지 만 신호조종기 는 사용자방식 에 서 
동작한다. 따라서 현재프로쎄스가 정상적인 실행을 재개하기 전에 사용자방식에서 신호 
조종기를 먼저 실행해야 한다. 게다가 사용자방식에서 핵심부방식으로 절환할 때마다 핵 
심부방식의 탄창은 지워지므로 핵심부가 프로쎄스의 정상적인 실행을 재개하도록 할 당 
시 에는 핵 심부방식 탄창은 새 치 기된 프로그람의 하드웨 어 문맥 을 더는 저 장하지 않는다. 

여기에 추가하여 신호조종기가 체계호출을 실행할수도 있으므로 더욱 복잡해진다. 
이 경우에는 봉사루린을 실행한 후에 조종이 새치기된 프로그람코드대신 신호조종기로 
돌아가야 한다. 

Linux 에 서 는 핵 심 부방식 에 저 장한 하드웨 어 문맥 을 현재 프로쎄 스의 사용자방식 탄창 
으로 복사하는 방법을 채택하여 해결한다. 또한 신호조종기를 완료할 때 sigreturnO 
체 계 호출을 자동으로 호출하여 하드웨 어 문맥 을 핵 심 부방식 탄창으로 복사하고 사용자방식 
탄창의 원본을 복구하도록 사용자방식탄창을 변경한다. 
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그림 3-13 은 신호를 잡는 작업 에 관여하는 함수의 실행 흐름을 보여준다. 먼저 프로 
쎄스로 차단하지 않는 신호를 전송한다. 새 치기 나 례외 가 발생하면 프로쎄스는 핵심부방 
식으로 절환한다. 사용자방식으로 돌아가기 직전에 핵심부는 do _ signal 0함수를 실행하 
고 이 함수는 ( handle _ signal 0함수를 호출하여) 신호를 처리하고 ( setup _ frame () 이나 
setup _ rt_frame () 을 호출하여) 사용자방식 탄창을 구성 한다. 

프로쎄 스가 다시 사용자방식 으로 절환할 때 프로그람계 수기 (program counter ) 를 
조종기시 작주소로 설정하므로 프로쎄스는 신호조종기 를 시 작한다. 이 함수가 완료하면 
setup _ frame () 이나 setup _ rt _ frame 0함수가 미리 사용자방식 탄창에 설정 해놓은 복귀 
코드를 실행한다. 이 복귀코드는 sigreturnO 체계호출을 실행하고 이 체계호출의 봉사 
루린은 정 상 프로그람의 하드웨 어문맥 을 핵 심부방식탄창으로 복사하고 사용자방식탄창을 
원래 상태 로 복구한다. ( restore _ sigcontext () 를 호출하여 ) 

따라서 이 체계호출이 완료할 때 정상 프로그람에서 실행을 재개한다. 

지금부터 이런 설계가 어떻게 동작하는가에 대하여 자세히 보기로 하자. 

4) 프레임구성하기 

handle_signal () 함수는 프로쎄스 사용자방식 탄창을 옳게 설정 하려고 

setup _ frame () 함수 ( siginfo_t 표가 필요없는 신호일 때 뒤에 나오는《신호처리관련 체 
계호출》을 참고)나 setup _ rt _ frame () 함수 ( siginfo_t 표가 필요한 신호일 때)를 호출한 
다. 핵심부는 두 함수중에서 어느것을 사용하겠는가를 결정하기 위해 그 신호에 해당하 
는 sigaction 표의 sa_flags 마당에 SA_SIGINF ◦기 발이 설정되 여 있는가를 검 사한다. 
setup _ frame 0함수는 변수 4개를 받는다. 
sig 

신호번호 
ka 

신호와 관련한 k_sigaction 표의 주소 
oldset 

차단하는 신호의 비트마스크배럴의 주소 

regs 

사용자방식 등록기 내 용을 저 장하는 핵 심 부방식 탄창령 역 의 주소 
setup_frame () 함수는 사용자방식 탄창에 프레 임 ( frame ) 이 라는 자료구조를 넣 는다. 
이 자료구조에는 신호를 처리하고 sys _ sigreturn () 함수로 정확하게 돌아올수 있게 하는 
데 필요한 정보가 들어간다. 프레 임은 다음 마당을 포함하는 sigframe 표이 다. (그림 3- 
14 참고) 
pretcode 

신호조종기 함수의 복귀주소: 갈은 표의 retcode 마당(목록 뒤부분에 나옴)을 가리킨다. 
sig 
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신호번호: 이것은 신호조종기에 필요한 변수이다. 
sc 

핵 심 부방식 으로 절 환하기 직 전의 사용자방식 프로쎄 스의 하드웨 어 문맥 을 포함하는 
sigcontext 형 구조체 ( current 의 핵 심부방식 탄창에서 이 정보를 복사한다) 이 다. 여 기 
에는 프로쎄스에서 차단하는 표준신호를 가리키는 비트배럴도 들어간다. 
fpstate 

사용자방식 프로쎄 스의 부동소수점 등록기 를 저 장하는데 사용할수 있는 _ fpstate 형 
구조체. (《 FPU 와 MMX , XMM 등록기저장》을 참고) 
extramask 

차단하는 실시간신호를 지정하는 비트배렬. 
retcode 

sigreUirnO 체계호출을 하는 8 byte 코드: 신호조종기에서 복귀 할 때 이 코드를 
실행 한다. 


사용자방식탄창 


신호조종기의 복귀주소 



신호조종기의 변수(신호번호) 
프로쎄 스하드웨 어 문맥 

부동소수점등록기 
차단된 실시 간신호 
sigretumO 호 줄 
이전 탄창 내용 


그림 3-14. 사용자방식탄창에 있는 프레임 

setup _ frame () 함수는 먼저 get _ sigframe () 을 호출하여 프레임이 시작할 기억기위 
치를 계산한다. 

이 기 억기위치는 보통 사용자방식탄창에 있으므로 이 함수는 다음 값을 반환한다. 
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( regs->esp - sizeof (struct sigframe )) & 0 xfffffff 8 

탄창은 낮은 주소쪽으로 커지므로 프레임시작주소는 현재 탄창의 맨우에 있는 주소 
에서 프레 임크기를 뺀 결과를 8의 배수로 정렬해서 구한다. 

다음으로 access _ ok 마크로를 사용하여 복귀주소를 검사한다. 이 주소가 유효하다면 
_ put _ user () 함수를 반복해서 호출하여 모든 프레임마당을 채운다. 이 작업이 끝나면 
핵심부방식탄창의 regs 령역을 수정하여 current 가 사용자방식에서 실행을 재개하면 신 
호조종기로 조종이 넘어가게 만든다. 

regs->esp = (unsigned long ) frame : 
regs->eip = (unsigned long ) ka -> sa . sa _ handler ； 

setup _ frame () 함수는 핵심부방식탄창에 저장한 토막등록기를 기본값으로 재설정한 
후 완료한다. 이제 신호조종기 에 필요한 정보는 사용자방식탄창의 맨우에 있다. 

setup _ rt _ frame () 함수는 setup _ frame () 함수와 매우 류사하지만 사용자방식탄창에 
신호와 관련된 siginfo _ t 표의 내용까지도 포함하는 확장프레 임 (extended frame , 
rt _ sigframe 자료구조에 저장한다.)을 넣는다. 

5) 신호기발점검하기 

handle _ signal () 함수는 사용자방식 탄창을 구성 한 후 신호와 관련된 기발값을 검사 
한다. 

수신한 신호의 SA _ ONESHOT 기 발이 1 이 라면 다음에 신호가 발생 할 때 기 본동작 
을 수행하도록 초기화해서 앞으로 같은 신호가 발생하더라도 신호조종기를 호출하지 않 
게 만든다. 

if ( ka -> sa . sa_flags & SA _ ONESHOT ) 
ka -> sa . sa_handler = SIG — DFL ; 

나아가서 신호의 SA_NODEFER 기발이 0 이면 신호조종기를 실행하는 동안에 
sigaction 표의 sa _ mask 마당에서 지정 하는 신호를 차단해 야 한다. 
if (!( ka -> sa . sa_flags & SA _ NODEFER » { 
spin _ lock_irq (& current -> sigmask _ lock ) : 

sigorsets (& current -> blocked , & current -> blocked , & ka -> sa . sa _ mask ) : 
sigaddset (& current -> blocked , sig ) ; 
recalc_sigpending ( current ) : 
spin _ unlock_irq (& current -> sigmask _ lock ) : 

} 

앞에서 설명한것처럼 recalc _ sigpending () 함수는 프로쎄스에 차단하지 않는 대기 
중인 신호가 있는가를 검사하고 이에 따라 해당 sigpending 마당을 설정한다. 

handle _ signal () 은 완료하여 do _ signal 0함수로 되돌아가고 이 함수역시 완료한다. 
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6) 신호조종기시작 

do _ signal () 함수가 완료하면 현재프로쎄스는 사용자방식에서 실행을 재개한다. 앞 
서 설명한 setupjrameO 함수가 준비한대로 eip 등록기는 신호조종기의 첫번째 명령을 
가리키고 esp 는 사용자방식탄창 맨우에 넣은 프레임의 첫번째 기억기위치를 가리킨다. 
그 결과 신호조종기를 실행한다. 

7) 신호조종기완료 

신호조종기를 완료할 때 탄창의 맨우에 있는 복귀주소는 프레임의 retcode 마당에 
있는 코드를 가리킨다. siginfo _ t 표가 없는 신호인 경우 이 코드는 다음 기호언어명령과 
같다. 

popl %eax 

movl $— NR _ sigreturn , %eax 

int $0 x 80 

따라서 탄창에서 신호번호(즉 프레임의 sig 마당)를 버리고 sigreturnO 체계호출을 
한다. 

sys_sigreturn () 함수는 사용자방식 프로쎄 스의 하드웨 어 문맥 을 포함하는 pt _ regs 형 
자료구조 regs 의 주소를 계산한다. ( arch \ i 386\ kemel \ signal . c ) 

이 함수는 esp 마당에 들어있는 값을 통해 사용자방식탄창안에 있는 프레임주소를 
계산하고 검사한다. 

이제 신호조종기를 호출하기 전에 차단하던 신호의 비트배럴을 프레임의 sc 마당에 
서 읽어들여 current 의 blocked 마당으로 복사한다. 결과적으로 신호조종기를 실행하려 
고 마스크 한 모든 신호차단을 해제한다. 다음으로 recalc _ sigpending 0함수를 호출한 
다 . ( kernel \ signal . c ) 

이 부분에서 sys _ sigreturn () 함수는 프로쎄스의 하드웨어문맥을 프레임의 sc 마당 
에서 핵심부방식탄창으로 복사하고 사용자방식탄창에서 프레임을 제거해야 한다. 이 두 
가지 작업은 restore _ sigcontext () 함수를 호출하여 수행 한다. 

rt _ sigqueueinfo () 와 같은 체계호출을 사용하여 siginfo _ t 표가 필요한 신호를 보낸 
경우라도 처 리과정은 매우 비슷하다. 확장프레 임 내의 retcode 마당에 들어있는 복귀코드 
는 rt _ sigreturn () 체계호출을 실행한다. 이것을 처리하는 sys _ rt _ sigreturn () 봉사루린 
은 프로쎄스의 하드웨 어문맥을 확장프레 임 에서 핵심부방식탄창으로 복사하고 사용자방식 
탄창에서 확장프레 임을 제거하여 원래 사용자방식 탄창의 내용을 복구한다. 

8) 체계호출재실행 

종종 체 계 호출과 관련한 요청 을 핵 심 부가 처러 할수 없는 경 우가 있 다. 이 런 일 이 일 
어나면 체계 호출을 실행 한 프로쎄 스는 TASK_INTERRUTIBLE 이나 

TASK _ UNINTERRUPTIBLE 상태가 된 다. 

프로쎄스가 TASKJNTERRUPTIBLE 상태가 되고 다른 프로쎄스가 해당 프로쎄 
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스에 신호를 보내면 핵심부는 체계호출을 끝마치지 않은 상태에서 프로쎄스를 
TASK_RUN 상태로 만든다. (《새치기와 례외로부터 복귀》를 참고) 이런 일이 일어나 
면 체계호출봉사루린은 작업을 끝마치지 않고 EINTR 나 ERESTARTNOHAND , 
ERESTARTSYS , ERESTARTNOINTR 오유코드를 반환한다. 프로쎄스는 사용자방 
식으로 돌아갈 신호를 전송한다. 

실제로 이런 상태에서 사용자방식프로쎄스가 받을수 있는 유일한 오유코드는 
EINTR 이 다. 이 오유코드는 체 계 호출을 끝까지 수행 하지 않았다는것 을 의 미 한다. (응용 
프로그람은 이 코드를 검 사하여 체계호출을 다시 호출하겠는가를 결정 할수 있다. ) 나머 
지 오유코드는 핵심부가 신호조종기를 완료한 후에 자동으로 체계호출을 다시 호출하겠 
는가를 결정하기 위해 내부적으로 사용한다. 

표 3-10 은 끝마치지 못한 체계호출과 관련한 오유코드와 3가지 신호동작 각각에 대 
한 오유코드의 영향을 렬거한다. 여기에 나오는 용어의 의미는 다음과 갈다. 

本 완료 

체 계 호출을 자동으로 재 실 행 하지 않는다. 프로쎄 스는 사용자방식 으로 돌아가 int 
$0 x 80 다음에 나오는 명령부터 실행을 재개하고 eax 등록기는 EINTR 값을 저장한다. 

4 재실행 

핵심부는 사용자방식프로쎄스가 체계호출번호를 eax 등록기에 넣은 후 다시 int 
0 x 80 명령을 실행하도록 강제한다. 프로쎄스는 재실행사실을 모르며 프로쎄스에 오유 
코드를 전달하지도 않는다. 

4 상태에 의존 

분배 한 신호의 SA_RESTART 기 발이 1 인 경 우에 만 체 계 호출을 재 실 행 한다. 그렇 
지 않으면 체 계호출은 EINTR 오유코드를 반환하며 완료한다. 


표 3-10. _ 체 계호출의 재 실 행 


신호 

오유코드와 체 계 호출실 행 에 1 

미치는 영향 


동작 

EINTR 

ERESTARTSYS 

ERESTARTHAND 

ERESTARTNOINTR 

기본 

완료 

재실행 

재실행 

재실행 

무시 

완료 

재실행 

재실행 

재실행 

포착 

완료 

상태에 의존 

완료 

재실행 


신호를 분배할 때 핵심부는 체계호출을 재실행하기 전에 프로쎄스가 실제로 체계호 
출을 했는가를 확인해야 한다. 이곳이 바로 하드웨어문맥 regs 와 orig_eax 마당이 결정 
적인 역할을 하는 부분이다. 새치기조종기나 례외조종기가 시작할 때 이 마당을 어떻게 
초기화하는가에 대하여 보기로 하자. 
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▲ 새치기 

이 마당에는 새치기에 해당하는 IRQ 번호에서 256을 뺀 값이 들어간다. 

♦ 0 x 80 례외 

이 마당에 는 체 계 호출번호가 들어 간다. (《 system _ call () 함수》를 참고) 

4 다른 례외 

이 마당에는 -1 이 들어 간다. (《 례외조종기를 위 한 등록기저장》을 참고) 따라서 
orig _ eax 마당에 부수가 아닌 값이 들어 있 다면 체 계 호출처 리 중에 잠들어있던 
TASK _ INTERRUPTIBLE 상태의 프로쎄스를 신호로 깨웠음을 의미 한다. 이 봉사루린 
은 체계호출이 새치기되였다는 사실을 알아차리고 이전에 언급한 오유코드중 하나를 반 
환한다. 

만일 신호를 명시적으로 무시하거나 기본동작을 실행한다면 do _ signal () 함수는 오 
유코드를 분석하여 표 3-10 에서 보여준바와 같이 끝나지 않은 체계호출을 자동으로 재 
실행하겠는가를 결정한다. 체 계호출을 재 실행해 야 한다면 프로쎄 스가 사용자방식 으로 복 
귀할 때 eip 는 int 0 x 80 명령을 가리키고 eax 는 체계호출번호를 담도록 하드웨어문맥 
regs 를 수정한다. 

if ( regs -> orig_eax >= 0) { 

if ( regs->eax == -ERESTARTNOHAND | | regs->eax == -ERESTAR 
TSYS 11 regs->eax == - ERESTARTNOINTR ) { 
regs->eax = regs -> orig _ eax ； 
regs->eip -= 2； 

} 

} 

regs->eax 마당을 체 계 호출봉사루린의 복귀 값으로 설정 한다 . ( 《 system _ call 0함 
수》참고) 

조종기를 등록해서 신호를 잡은 경우라면 handle _ signal () 함수는 오유코드와 필요 
에 따라 sigaction 표의 SA _ RESTART 기발을 분석 하여 끝마치지 못한 체계 호출의 재 
실행여부를 결정한다. 

if ( regs -> orig_eax >= 0) { 
switch ( regs -> eax ) { 

case -ERESTARTNOHAND : 
regs->eax = - EINTR ； 
break ； 

case -ERESTARTSYS : 

if (!( ka -> sa . sa_flags 技 SA — RESTART )) { 

regs->eax = - EINTR ； 
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break : 

} 

/* 계속 진행 니 

case -ERESTARTNOINTR : 

regs->eax = regs->orig_eax； 


체계호출을 재시작해야 한다면 handle_signal 0은 dc 匕 signalO 과 똑같이 진행하고 
그렇 지 않으면 사용자방식 프로쎄 스에 -EINTR 오유코드를 반환한다. 

6. 신호처리관련 체계호출 

이 절의 앞부분에서 설명한바와 갈이 사용자방식에서 실행하는 프로그람은 신호를 
주고 받을수 있다. 따라서 이런 동작을 수행하기 위한 일련의 체계호출을 정의해야 한다. 
같은 목적을 달성하는 여러 체계호출이 존재한다. 그 결과 체계호출의 일부는 전혀 사용 
하지 않기도 한다. 례를 들어 sys_sigaction() 과 sys_rt_sigaction() 은 거의 똑같다. 
따라서 C 서 고에 들어있는 래퍼 함수 sigac 仕 on () 은 sys_sigaction 0 대신에 

sys_rt_sigaction() 을 호출한다. 여기서는 몇가지 중요한 POSIX 체계호출에 대하여 설 
명 한다. 

1) kill 체계호출 

kilKpid, sig) 체계호출은 일반적으로 신호를 보낼 때 사용한다. 이것을 처리하는 
봉사루린은 sys_kill() 함수이 다. 

정수형의 pid 변수는 값에 따라 여러가지 의미를 나타낸다. 
pid > 0 

PID 가 pid 와 같은 프로쎄스에 sig 신호를 보낸다. 
pid = 0 

이 체 계 호출을 한 프로쎄스와 같은 프로쎄스그를에 있는 모든 프로쎄스에 sig 신호 
를 보낸다. 
pid = -1 

교환기 (PID 0) 와 init(PID 1), current 프로쎄스를 제외한 모든 프로쎄스에 신 
호를 보낸다. 
pid < -1 

pid 프로쎄스그룹에 있는 모든 프로쎄스에 신호를 보낸다. 
sys_kill() 함수는 신호를 위한 최소한의 siginfo_t 표를 만든 후 kill_something_in 
fo() 함수를 호출한다. 
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info . si_signo = sig ； 

info . si_errno = 0； 

info . si_code = SI _ USER ； 

info ._ sifields ._ kill._pid = current -> pid ； 

info , _ sifields ._ kill._uid = current -〉 uid ; 

return kill _ something _ info ( sig , 技 info , pid ) ; 

kill _ something_info () 함수는 send _ sig _ info () 함수를 호출하거 나(프로쎄 스하나에 
보낸다.) kill _ pg _ info () 함수를 호출한다. (모든 프로쎄스를 검색하여 신호를 받을 그룹 
에 있는 각 프로쎄스마다 send _ sig _ info () 함수를 호출한다.) 

killO 체계호출은 어느 신호이든 보낼수 있다. 심지어 실시간신호라고 부르는 32에 
서부터 63사이의 신호도 보낼수 있다. 그렇지만 앞서 《신호발생》에서 본것처럼 체계 
호출은 새로운 신호를 목적지프로쎄스의 대기중인 신호대기렬에 추가한다는 사실을 보 
장하지 않는다. 따라서 여러번 보낸 신호를 잃어버릴수도 있다. 실시간신호는 
rt _ sig < iueueinfo () 와 같은 체계 호출을 사용해서 보내 야 한다. (뒤 에 나오는《 실시 간신 
호를 위한 체계호출》을 참고) 

System 구와 BSD Unix 변종에는 프로쎄스그롭에 직접 신호를 보내는 killpgO 체 
계호출이 있다. Linux 에서는 이 함수를 kill () 체계호출을 리용하여 체계호출이 아닌 서 
고함수로 실현한다. 다른 변종으로 현재프로쎄스에(즉 이 함수를 호출하는 프로쎄스에) 
신호를 보내는 raiseO 체계호출이 있다. Linux 에서는 raiseO 도 서고함수로 실현한다. 
2) 신호동작변경 

sigaction ( sig , act , oact ) 체계호출은 사용자가 신호에 대한 동작을 지정할수 있게 
한다. 물론 신호동작을 정의하지 않으면 핵심부는 수신한 신호의 기본동작을 실행한다. 

이것을 처리하는 sys _ sigaction () 봉사루린은 변수 두개를 가지고 동작한다. 
( arch \ i 386\ kernel \ signal . c ) 

하나는 신호번호 sig 이고 다른 하나는 새로운 동작을 정의하는 sigac 社 on 형의 표 
act 이다. 그리고 세번째 변수인 oact 는 신호에 대한 이전 동작을 알아내는데 사용할수 
있는 선택적인 출력변수이다. 

이 함수는 먼저 act 주소가 유효한가를 검사한다. 그리고 k_sigaction 형의 변수 
new_ka 의 sa_handler 와 sa _ flags , sa_mask 마당을 *act 의 해당 마당값으로 채운다. 

— get_user ( new _ ka . sa . sa _ handler , & act -> sa _ handler ) ； 

— get _ user ( new _ ka . sa . sa _ flags , & act -> sa _ flags ) ； 

— get _ user ( mask , 技 act -〉 sa _ mask ) ； 
siginitset (& new _ ka . sa . sa _ mask , mask ) ； 

이 함수는 do _ sigaction () 을 호출해서 새로운 new_ka 표를 current -〉 sig-〉action 
의 sig -1 번째 입구점 으로 복사한다. (신호번호는 1부터 시 작하므로 배 렬에서의 위 치보다 
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1 만큼 크다 .) 

k = &current->sig->action[sig-l] : 
spin_lock (技 current->sig->siglock) : 
if (act) { 

*k = *act ； 

sigdelsetmask (技 k->sa. sa_mask, sigmask(SIGKILL) | sigmask(SI 
GSTOP ))； 

if (k->sa. sa_handler == SIG—IGN || (k->sa. sa_handler == SIG_ 
DFL && (sig == SIGCONT | | sig == SIGCHLD | | sig == SIGWINC 
H))) 

{ 

spin_lock_irq (&current->sigmask_lock) : 
if (rm_sig_from_queue(sig, current)) 
recalc_sigpending (current) : 
spin_unlock_irq (&current->sigmask_lock) : 

} 

} 

POSIX 표준에서는 기본동작이 《 무시》인 신호의 동작을 SIG_IGN 이나 SIG_DFL 
로 설정하면 종류가 같은 대기중인 신호를 무시하도록 한다 . 나가서 해당 신호조종기에 
서 마스크할 신호로 무엇을 지정하든 SIGKILL 과 SIGSTOP 은 절대로 마스크할수 없다 . 

oact 변수가 NULL 이 아니 라면 이전 sigactlon 표의 내용을 변수가 가리키는 프로쎄 
스주소공간으로 복사한다 . 
if (oact) { 

— put_user (old_ka. sa. sa_handler, &oact->sa_handler) : 

— put_user (old_ka. sa. sa_flags, &oact->sa_flags) : 

— put_user (old_ka. sa. sa_mask. sig [0], &oact->sa_mask) : 

} 

sigaction0 체계 호출을 사용하여 sigaction 표의 sa_flags 마당도 초기화할수 있 다 . 
이장 앞부분에 있는 표 3-8 에서 이 마당에서 사용할수 있는 값과 그 의미를 설명하였다 . 

초기 System V Unix 의 변종은 signalO 체계호출을 제공하였다 . 이 체계호출은 
아직까지 프로그람작성자들사이에서 널리 쓰인다 . 최근 C 서고는 sigac 仕 on() 을 사용하 
여 signalO 을 실현하지만 Linux 는 여전히 오래된 C 서고를 지원하여 sys_signal() 봉 
사루린을 제공한다 . 

new_sa. sa. sa_handler = handler ； 

new_sa. sa. sa_flags = SA_ONESHOT | SA_NOMASK ； 
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ret = dc 匕 sigaction (sig, &new_sa, &old_sa) : 

return ret ? ret : (unsigned long) old_sa. sa. sa_handler ； 

3) 대기중인 차단된 신호검사 

프로쎄스는 sigpendingO 체계호출을 사용하여 대기중인 차단된 신호 즉 차단된 동 
안 발생한 신호의 목록을 확인할수 있다. 해 당 봉사루린인 sys_sigpending() 은 비트배 
렬을 복사할 사용자변수의 주소인 변수 set 만 사용한다. 

프로쎄스는 sigprocmaskO 체계호출을 사용하여 차단할 신호집합을 수정 할수 있다. 
이것은 표준신호(비실시간신호)에만 적용된다. 해당 봉사루린인 sys_sigprocmask() 는 
변수 세개를 사용한다 . ( kernel\signal.c) 
oset 

프로쎄스주소공간내에 있는 이전 비트마스크를 저장할 비트배렬에 대한 지적자이다. 
set 

프로쎄스주소공간내 에 있는 새로운 비트마스크를 담고있는 비트배럴에 대한 지적 
자이다. 
how 

다음 값중 하나를 담은 기 발이다. 

SIG_BLOCK 

*set 비트 마스크 배렬은 차단할 신호의 비트마스크 배렬에 추가할 신호를 지정 
한다. 

SIG—UNB10CK 

*set 비 트 마스크 배 렬은 차단할 신호의 비 트 마스크 배 럴에서 제거할 신호를 지 
정 한다. 

SIG_SETMASK 

*set 비트 마스크 배럴은 차단할 신호의 새로운 비트 마스크 배럴을 지정한다. 

이 함수는 copy_from_user() 를 호출하여 set 변수가 가리키는 값을 변수 new_set 
에 복사하고 current 의 차단할 표준신호의 비트 마스크 배렬을 변수 old_set 로 복사한다. 
다음으로 how 기 발에서 지정한대로 이 두변수를 통 해서 작업 한다. 
if (copy_from_user (&new_set, set, sizeof (*set) ) ) 
return -EFAULT ； 

new_set &= -(sigmask (SIGKILL) Isigmask (SIGSTOP) ) : 
spin_lock_irq (&current->sigmask_lock) ; 
old_set = current->blocked. sig [0] : 
if (how == SIG—BLOCK) 

sigaddsetrnask (&current->blocked, new_set) : 
else if (how == SIG_UNBLOCK) 
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sigdelsetmask ( 技 current- 〉 blocked, new_set) ； 
else if (how == SIG.SETMASK) 
current - 〉 blocked, sig [0] = new_set ； 
else 

return EINVAL ； 
recalc_sigpending (current) ； 
spin_unlock_irq ( ^current - >sigmask_lock) ； 
if (oset ) { 

if ( copy_to_user ( oset, &old_set, sizeof (*oset))) 
return EFAULT ； 

} 

return 0 ； 

4) 프로쎄스보류 

sigsuspendO 체계호출은 mask 변수가 가리키는 비트마스크배렬에서 지정한 표준신 
호를 차단한 후 프로쎄스를 TASK_INTERRUPTIBLE 상태로 만든다. 프로쎄 스는 무 
시 하지 않고 차단하지 않는 신호를 수신한 경 우에 만 깨 여난다. 

해당 봉사루린인 sys-sigsuspend() 는 다음 코드를 실행한다. 
mask &= 〜 (sigmask (SIGKILL) | sigmask(SIGSTOP)) ； 
spin_lock_irq ( 技 current- 〉 sigmask_lock) ； 
saveset = current->blocked ； 
siginitset (&current->blocked, mask) ； 
recalc_sigpending (current) ； 
spin_unlock_irq (&current->sigmask_lock) ; 
regs->eax = - EINTR; 
while (1) { 

cur rent -〉 state = TASK—INTERRUPTIBLE; 
schedule ( ) ; 

if (do_signal(regs, 技 saveset)) 
return -EINTR ； 

} 

scheduleO 함수는 실행할 프로쎄스를 선택한다. sigsuspendO 체계호출을 실행한 
프로쎄스가 후에 실행을 재개하면 sys_sigsuspend() 는 프로쎄스를 깨운 신호를 분배하 
기 위해 do_signal() 함수를 호출한다. 이 함수의 결과값이 1 이면 해당 신호를 무시하지 
않는다는 의미이므로 체계호출오유코드 EINTR 를 반환하고 완료한다. 

sigprocmaskO 와 sleepO 을 결합하여 사용하면 겉보기에 같은 결과를 낼수 있기때 
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문에 sigsuspendO 체계호출을 중복된것으로 볼수도 있지만 그렇지 않다. 프로쎄스를 
번갈아 실행하기때문에 동작 A 를 수행하는 체계호출을 실행한 후에 동작 묘를 수행하는 
체 계 호출을 실행 하는것과 동작 A 와 모를 동시 에 수행 하는 체계 호출 하나를 실행 하는것은 
엄연히 다르다. 

특별한 경우 sigprocmaskO 에서 차단을 해제한 신호를 sleepO 함수를 호출하기 전 
에 분배할수도 있다. 이 경우 프로쎄스는 이미 분배한 신호를 기다리면서 영원히 
TASK _ INTERRUPTIBLE 상태로 남을수도 있다. 반면에 sigsuspendO 체계 호출은 신 
호차단을 해제할 때부터 scheduleO 을 호출할 때까지 신호전송을 허 용하지 않는데 이 
시간동안은 다른 프로쎄스가 CPU 를 사용할수 없기때문이다. 

5) 실시간신호를 위한 체계호출 

앞서 본 체 계호출은 표준신호에만 해 당하는것 으로 사용자방식프로쎄 스가 실시 간신호 
를 다루려면 추가적인 체계호출이 필요하다. 

실시간신호를 위 한 체계 호출중에서 rt_sigaction 0 과 rt_sigpending () , 
rt _ sigprocmask () , rt _ sigsuspend () 는 앞서 설명한 내용과 비슷하므로 더 설명하지 
않는다. 마찬가지로 실시간신호대기렬을 다루는 다른 두 체계호출도 자세히 설명하지 않 
는다. 

rt_sigqueueinfo 0 

실시간신호를 보내서 신호를 받는 프로쎄스의 대기중인 신호대기렬에 추가한다. 
rt_sigtimewalt 0 

차단된 대기중인 신호하나를 분배하지 않고 대기렬에서 제거한 후 해당 신호번호를 
반환한다. 차단된 대기중인 신호가 없으면 정해진 시간동안 현재프로쎄스를 보류한다. 


제 4절. 프로쎄스순서짜기 

Linux 는 다른 시분할체계와 마찬가지로 짧은 시간단위로 한 프로쎄스에서 다른 프 
로쎄스로 옮겨다니며 작업을 수행하여 겉보기에는 마치 여러 프로쎄스를 동시에 실행하 
는 효과를 낸다. 프로쎄스절환 (process switch ) 자체는 이미 보았으므로 이 절에서는 
언제 프로쎄스절환을 하고 어떤 프로쎄스를 선택할것인가에 관한 문제인 순서짜기 
( scheduling ) 에 대하여 본다. 


1. 순서 짜기방책 

전통적 인 Unix 조작체 계 의 순서 짜기 알고리 듬 (scheduling algori 仕 im ) 은 몇 가지 목 
적을 달성해야 한다. 즉 프로쎄스반응시간은 짧아야 하며 배경작업의 처리량도 좋아야 
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한다. 그렇다고 CPU 를 사용하지 못하는 프로쎄스가 있어서도 안되며 우선순위가 낮은 
프로쎄스와 우선순위가 높은 프로쎄스를 융통성있게 처리하여야 한다. 순서짜기방책 
(scheduling policy ) 이란 새로 실행할 프로쎄스를 언제，어떻게 선택하겠는가를 결정 
할 때 사용하는 일련의 규칙을 말한다. 

Linux 의 순서짜기는 시분할(社 me - sharing ) 기 법을 토대로 한다. 즉 CPU 시간을 얇 
은 조각 ( slice ) 으로 조개고 실행가능한 각 프로쎄스마다 조각을 하나씩 할당하여 프로쎄 
스 여러개를 《시간다중화 (time multiplexing ) 》방식으로 실행한다. 물론 한 처리기 
는 어느 순간이든 한 프로쎄스만 실행할수 있다. 현재 실행하고있는 프로쎄스가 완료하 
지 않은채 프로쎄 스에 부여 한《 시 간조각 (tme slice ) ) 즉《 정 량 ( quantum ) 》이 만 
료되면 프로쎄스절환이 일어날수 있다. 시분할은 시간새치기에 의존하므로 이 작업은 프 
로쎄스에 보이지 않는다. 프로그람은 CPU 의 시분할을 위해 코드를 추가할 필요가 없다. 

프로쎄스를 우선순위에 따라 순위를 매기는 작업 또한 순서짜기방책의 기반이 된다. 
때로는 프로쎄스의 현재 우선순위를 알아내려고 복잡한 알고리듬을 사용하지만 최종 결 
과물은 같다. 이것은 각 프로쎄스가 CPU 를 할당받는데 얼마나 적합한가를 나타내는 값 
이 다. 

Linux 에서 프로쎄스의 우선순위를 동적으로 매긴다. 순서짜기프로그람 
( scheduler ) 은 프로쎄스가 무엇을 하는가를 계속 지켜보면서 주기적으로 프로쎄스의 
우선순위를 조정한다. 이런 순서짜기프로그람은 오랜 시간 CPU 를 사용하지 못한 프로 
쎄스의 경우 우선순위를 동적으로 높여서 밀어준다. 마찬가지로 오래동안 실행한 프로쎄 
스는 동적 으로 우선순위를 낮춘다. 

전통적으로 순서짜기에 관해 이야기할 때 프로쎄스를 입출력위주 ( I / O - bound ) 와 
CPU 위주 ( CPU - bound ) 로 분류한다. 전자는 입출력장치를 많이 리용하며 많은 시간을 
입출력작업이 끝나기를 기다리는데 사용한다. 후자는 수자계산을 하는 프로그람처럼 
CPU 시 간이 많이 필요한 응용프로그람이다. 다른 분류법 으로 프로쎄스를 다음 3가지 종 
류로 구분하기도 한다. 

4 호상작용프로쎄스 

이 프로쎄스들은 끊임없이 사용자와 호상작용한다. 따라서 많은 시간을 건반이 
눌러거나 마우스조작이 일어나길 기다리는데 소비한다. 프로쎄스는 입력을 받으면 빨 
리 깨여나야 한다. 그렇지 않으면 사용자는 체계의 반응속도가 늦다고 생각할것이다. 
일반적으로 평균지 연시간은 50~150 ms 사이여 야 한다. 지연시간의 분산역시 이 범위 안 
에 들어가야 한다. 그렇지 않으면 사용자는 체계가 정상이 아니라고 생각할것이다. 
호상작용을 하는 전형 적 인 프로그람으로는 명 령 월 (command shell ) 과 문서 편집 기 , 
도형프로그람이 있다. 

A 일괄작업프로쎄스 

이 프로쎄스들은 사용자와 호상작용을 요구하지 않는다. 그래서 때로는 배경작 
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업으로 실행하기도 한다. 이런 프로쎄스는 반응이 빠르지 않아도 된다. 전형적인 일 
괄작업 프로그람으로는 프로그람작성언어 를파일 러 와 자료기 지 검 색 엔진, 과학계산프 
로그람이 있다. 

A 실시간프로쎄스 

이 프로쎄스들은 순서짜기과 관련하여 많은 요구사항이 있다. 우선순위 가 더 낮은 
프로쎄스가 이런 프로쎄스를 차단해서는 안되며 짧은 반응시간을 보장하면서 이 시간 
편차를 최 소화해 야 한다. 전형 적 인 실시 간프로그람으로는 영상과 음성관련응용프로그 
탐，로보트조종기 등이 있다. 

여기서 설명한 두가지 분류법은 무관계하다. 례를 들어 일괄작업프로쎄스는 입출력 
위주일수도 있고(례를 들면 자료기지봉사기)， CPU 위주일수도 있다. (례를 들면 화상묘 
사프로그람) Linux 는 순서 짜기 알고리 듬에 서 실시 간프로그람을 명 확하게 구별 하지 만 
호상작용프로그람과 일괄작업프로그람을 구별할수 있는 방법은 없다. Linux 는 호상작 
용하는 응용프로그람의 반응시 간을 향상하기 위해 암시 적 으로 CPU 위 주프로쎄 스보다는 
입출력위주프로쎄스를 먼저 취한다. 

프로그람작성자는 표 3-11 에 렬거한 체계호출을 리용하여 순서짜기우선순위를 바끌 
수 있다. 더 자세한 사항은《순서짜기관련체계호출》에서 설명한다. 


표 3-11. _ 순서짜기관련체계호출 


체 계 호출 

설 명 

nice () 

일 반프로쎄 스의 우선순위 를 변경 한다. 

getpriorityO 

일 반프로쎄 스그룹의 최 대 우선순위 값을 알아낸 다. 

setpriorityO 

일반프로쎄 스그를의 우선순위 를 설정 한다. 

sched _ getscheduler () 

프로쎄 스순서 짜기 방책 을 알아낸 다. 

sched_setscheduler 0 

프로쎄 스순서 짜기 방책 과 우선순위 를 설정 한다. 

sched_getparam () 

프로쎄 스순서 짜기 우선순위 를 알아낸 다. 

sched_setparam () 

프로쎄 스순서 짜기 우선순위 를 설 정 한다. 

sched _ yield () 

차단하지 않으면서 자진하여 처리기를 반납한다. 

sched _ get _ priority_min () 

지정한 순서짜기방책에 대한 최소우선순위값을 알 
아낸다. 

sched _ get _ priority_max () 

지정한 순서짜기방책에 대한 최대우선순위값을 알 
아낸다. 
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sched _ rr _ get_interval 0 Round Robin 방책의 시간정 량값을 알아낸다. 

표에 렬거한 체계 호출중 대부분은 실시간프로쎄스 (reaHime process ) 에도 해당하 
므로 사용자는 이것을 리용하여 실시간응용프로그람을 개발할수 있다. 그러나 Linux 핵 
심부는 비선취형 (nonpreemp 仕 ve ) 이므로 요구사항이 많은 대부분의 실시 간응용프로그 
람을 지 원 하지 않는다. ( 《 순서 짜기 알고리 듬성 능》참고) 

1) 프로쎄스선취 

1장에서 언급한것처 럼 Linux 프로쎄스는 선취형 ( preemptive ) 이 다. 어떤 프로쎄 스 
가 TASK_RUNNING 상태가 되면 핵심부는 이 프로쎄스의 동적우선순위가 현재 실행중 
인 프로쎄스의 우선순위보다 높은가를 검사한다. 더 높다면 current 의 실행을 중단하고 
순서짜기프로그람을 호출하여 다른 프로쎄스를 선택해서 실행한다.(보통은 방금 실행가 
능하게 된 프로쎄스를 선택한다.) 물론 프로쎄스가 자기에게 주어진 시간정량 (time 
quantum ) 을 다 사용했을 때도 선취할수 있다. 이런 일이 벌어지면 현재프로쎄스의 
need_resclied 마당을 1로 설정하여 시 간새치기조종기가 끝날 때 순서짜기프로그람을 호 
출한다. 

례를 들어 두 프로그람(문서편집기와 름파일러)만 실행하고있는 상태를 생각해보자. 
문서 편집 기 는 호상작용하는 프로그람이 므로 를파일 러보다 높은 동적우선순위 를 가진 다. 
그렇지만 사용자는 생각하면서 멈추고 자료입력을 번갈아가며 수행하며 게다가 두 건을 
입력하는 사이의 평균지연시간은 상대적으로 길기때문에 이 프로그람은 자주 보류된다. 
그렇지만 사용자가 건을 입력 하자마자 새 치기가 발생하고 핵심부는 문서편집기프로쎄 스 
를 깨운다. 

또한 핵심부는 편집기의 동적우선순위가 현재 실행중인 프로쎄스(콤파일러)인 
current 의 우선순위보다 높다고 판단하여 현재프로쎄스의 need_resched 마당을 1로 
설정한다. 따라서 핵심부가 새치기조종기를 마칠 때 순서짜기프로그람을 호출하게 만든 
다. 순서짜기프로그람은 편집기를 선택하고 프로쎄스절환을 한다. 그 결과 편집기는 아 
주 빠르게 실행을 재개하고 사용자가 입력한 글자를 화면에 보여준다. 입력한 글자를 처 
리 한 후 문서편집기프로쎄 스는 또 다른 건입 력을 기 다리며 보류상태가 되고 콤파일러프 
로쎄 스는 실행을 재개할수 있다. 

여기서 선취 당한 프로쎄 스는 보류되는것 이 아니 라는 점 에 주의를 돌려야 한다. 이 
프로쎄 스는 여전히 TASK_RUNNING 상태로 남아있으며 그저 CPU 를 사용하지 않을뿐 
이다. 

일부 실시간조작체계는 선취형핵심부 (preemptive kernel ) 특징이 있다. 이것은 핵 
심부방식 에서 실행중인 프로쎄 스라도 사용자방식 에서와 마찬가지 로 아무 명 령 에서 나 
CPU 를 가로챌수 있다는것을 의미한다. Linux 핵심부는 선취형이 아니므로 사용자방식 
에 있을 때에만 프로쎄스를 선취할수 있다. 비선취형핵심부 (nonpreemp 吐 ve kernel ) 는 
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핵심부자료구조와 관련한 대부분의 동기화 ( synchroniza 吐 on ) 문제를 해결할수 있어 핵 
심부설계가 훨씬 간단하다. 

2) 정량은 얼마나 길어야 하는가 

정 량 ( quantum ) 기 간은 체 계성능에 중요한 영 향을 미치는데 너무 길어서도 안되고 
너무 짧아서도 안된다. 

정 량기 간이 너 무 짧으면 프로쎄 스절환때 문에 발생 하는 관리 소비 ( overhead ) 가 지 나 
치게 커진다. 례를 들어 프로쎄스절환을 하는데 10 ms 가 걸리고 정량역시 10 ms 로 설정 
한다고 하자. 그러면 프로쎄스절환을 하는데만 CPU 시간의 50%를 쓰게 된다. 

정 량기간이 너무 길면 더는 프로쎄스를 동시에 실행하는것처 럼 보이지 않는다. 례를 
들어 정 량을 5 s 로 설정한다면 실행가능한 각 프로쎄스는 5 s 동안 작업을 계속할수는 있 
겠지만 매우 오랜 시 간동안 멈 춰 있어 야 한다. (일반적 으로 5 s 에 실행 가능한 프로쎄스개 
수를 곱한 정도일것 이다.) 

정량기간이 길어지면 호상작용프로그람의 반응성이 떨어지는것으로 아는 사람도 있 
지만 일반적으로 틀린 말이다. 앞서 《프로쎄스선취》에서 설명한바와 같이 호상작용하 
는 프로쎄스는 상대적으로 우선순위가 높으므로 일괄작업프로쎄스가 아무리 긴 정 량기 간 
을 가진다고 하더라도 이것을 빠르게 선취한다. 

정량기간이 너무 길면 체계의 반응성이 떨어지는 경우도 있다. 례를 들어 사용자 두 
명이 자신의 쉘프롬프트에서 동시에 명령을 내린다고 하자. 여기서 한 명령은 CPU 위주 
프로그람이고 다른 명 령은 호상작용프로그람이라고 하자. 두 월은 새로운 프로쎄스를 생 
성 하여 사용자가 내린 명 령의 실행을 해 당 프로쎄스에 위 임한다. 

나아가서 이렇게 새로 만든 프로쎄스의 초기우선순위는 같다고 가정하자. ( Linux 는 
실행한 프로그람이 일괄작업인지 호상작용을 하는지 미리 알지 못한다.) 순서짜기프로그 
람이 CPU 위주프로쎄스를 선택한다면 이 프로쎄스가 시간정 량을 모두 사용한 후에야 비 
로소 다른 프로쎄스를 실행 할수 있다. 따라서 이 경우 정 량기간이 길면 명 령을 내린 사 
용자에 게 는 체 계 의 반응성 이 떨 어 지 는것 처 럼 보인다. 

정량기간은 항상 절충안으로 선택한다. Linux 가 채택한 제1규칙은 체계의 반응성 
을 좋게 유지하면서 정 량기간을 가능한 길게 하는것 이 다. 

2. 순서 짜기알고리 듬 

Linux 의 순서 짜기알고리 듬 (scheduling algorkhm ) 은 CPU 시 간을 《 시 기 
( epoch ) > 단위로 나누어 동작한다. 한 시기동안 모든 프로쎄스는 정해진 시간정 량을 소 
유하며 이 기간을 그 시기가 시작할 때 계산한다. 일반적으로 서로 다른 프로쎄스는 시 
간정량기 간이 서 로 다르다. 시 간정 량값은 그 시 기 동안 프로쎄 스에 할당하는 최 대 CPU 
시 간이 다. 프로쎄 스가 시 간정 량을 모두 소비하면 해 당 프로쎄스를 선취 하여 다른 실행할 
수 있는 프로쎄 스로 교체한다. 물론 프로쎄스가 정 량을 모두 소비 하지 않는 한 순서 짜기 
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프로그람은 한 시 기안에 그 프로쎄 스를 여 러 번 선택하여 실 행할수도 있 다. 례 를 들어 프 
로쎄 스가 입 출력 을 완료하길 기 다리 며 수행 을 보류하면 자기한데 남은 시 간정 량을 보존 
하고있다가 같은 시기에 다시 선택될수 있다. 한 시기는 실행가능한 모든 프로쎄스가 자 
신의 정 량을 완전히 소비할 때 끝난다. 이 경 우 순서짜기 프로그람 알고리 듬은 모든 프로 
쎄스의 시간정량을 다시 계산하고 새로운 시기를 시작한다. 

각 프로쎄스에는 기본시간정량 (base time quantum ) 이 있다. 이것은 프로쎄스가 
이전 시기에서 자신의 정량을 모두 소비하면 순서짜기프로그람이 프로쎄스에 할당하는 
시간정 량값이 다. 사용자는 nice 0와 setpriorityO 체계 호출을 러 용하여 자신이 실행 하는 
프로쎄스의 정 량을 바물수 있다. (《순서짜기관련체계호출》을 참고) 새로 생성되는 프로 
쎄스는 항상 부모의 기본시간정량을 상속받는다. 

INIT_TASK 마크로는 프로쎄스 0( 교환기)의 기본시간정량값을 DEF_PRIOR 로 설 
정한다. 이 마크로는 다음과 같이 정 의 한다. 

#define DEF_COUNTER (10* HZ / 100) 

IBM 호환 PC 에서는 HZ (시간새치기의 주파수를 나타내는 값)를 100으로 설정하기 
때문에(《 프로그람가능한 간격시간》을 참고) DEF_PRIORITY 는 lOtick , 즉 대략 
105미리초이다. Linux 순서짜기프로그람은 실행할 프로쎄스를 선택할 때 프로쎄스의 우 
선순위를 고려해야 한다. 실제로 Linux 에는 두가지 우선순위가 있다. 

♦ 정 적 우선순위 (static priority ) 

사용자가 실시 간프로쎄 스에 부여 한것 으로 값범위는 1부터 99까지 이 다. 순서짜기 
프로그람은 이 값을 절대로 바꾸지 않는다. 

4 동적 우선순위 (dynamic priority ) 

일 반 프로쎄 스에 만 해 당되 는것 으로 기 본적 으로 기 본시 간정 량(프로쎄 스의 기 본우선 
순위 (base priority ) 라고도 부른다.)과 현재 시기 에서 정 량이 만료되기까지 프로쎄스 
에 남은 CPU 시간의 tick 수를 합한 값이 다. 

실시간 프로쎄스의 정적우선순위는 일반 프로쎄스의 동적우선순위보다 항상 높다. 
순서 짜기 프로그람은 TASK_RUNNING 상태 에 있는 실 시 간프로쎄 스가 없 을 때 에 만 일 반 
프로쎄 스를 실 행한다. 

체계에는 언제나 실행가능한 프로쎄스가 적어도 하나는 있다. 이것은 바로 PID 0인 
교환기 ( swapper ) 핵심부스레드로서 실행 할 다른 프로쎄스가 없을 때 에만 실행 한다. 다 
중처 리기 체 계의 모든 CPU 에 는 PID 가 똑같이 0인 자신만의 핵 심부스레드가 있다. 

1) 순서짜기프로그람이 사용하는 자료구조 

프로쎄스서술자에서 프로쎄스목록은 모든 프로쎄 스서술자를 련결하며 실행 대기렬 
( runqueue ) 목록은 모든 실행가능한 프로쎄스 (즉 TASK_RUNNING 상태에 있는 프로 
쎄스)의 프로쎄스서술자를 서로 련결한다고 설명하였다. 두 경우 모두 init_task 프로쎄 
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스서술자가 목록의 머리역할을 한다. 

♦ 프로쎄 스서 술자 

각 프로쎄스서술자는 순서짜기와 관련한 여 러 마당을 포함한다. 
need_resched 

ret _ from _ sys _ call () 이 schedule () 함수를 호출해 야 하는가를 나타내는 기발. 
policy 

순서짜기방식. 가능한 값은 다음과 같다. 

SCHED_FIFO 

먼저 들어온것 이 먼저 나가는 ( FIFO , First In First Out ) 방식의 실시 간프로쎄 
스. 순서짜기프로그람은 프로쎄스에 CPU 를 할당할 때 실행대기렬 목록에서 해당 
프로쎄스서술자를 현재 있는 위치에 그대로 둔다. 우선순위가 더 높은 실행가능한 
실시간프로쎄스가 없다면 우선순위가 동일한 실행가능한 다른 프로쎄스가 있더라도 
자신이 원하는동안 계속해서 CPU 를 사용한다. 

SCHED_RR 

Round Robin 방식의 실시간프로쎄스. 순서짜기프로그람은 프로쎄스에 CPU 를 
할당할 때 해당 프로쎄스서술자를 실행대기렬목록의 맨끝에 넣는다. 이 방책은 똑같 
은 우선순위가 동일한 SCHED _ RR 시간프로쎄스사이에서 공정한 CPU 시간할당을 
보장한다. 

SCHED_OTHER 
일반 시분할프로쎄스 

policy 마당에는 lbit 크기인 SCHED_YIELD 기발도 있 다. 프로쎄스가 

sched _ yield () 체계호출(입출력연산을 시작하거나 잠들지 않고서도 자진해서 처리기 
를 반납할수 있는 방법 이 다. 《 순서짜기 관련 체 계 호출》을 참고)을 하면 이 기 발을 1 
로 설정한다. 또한 핵심부는 급하지 않은 작업을 오래동안 실행하면서 다른 프로쎄스 
에 실행할 기회를 주기 바랄 때마다 SCHED _ YIELD 기발을 설정하고 scheduleO 함 
수를 호출한다. 
rt_priority 

실시간프로쎄스의 정적우선순위. 유효한 우선순위의 범위는 1부터 99까지이다. 
일반프로쎄스의 정적우선순위는 0으로 설정해야 한다. 
counter 

프로쎄스의 정 량이 만료되기까지 프로쎄스에 남은 CPU 시간의 仕 ck 수. 새로운 시 
기를 시작할 때 이 마당을 프로쎄스의 시간정량기간으로 설정한다. 
update _ process _ times () 함수는 tick 이 발생 할 때 마다 현재 프로쎄 스의 counter 마당 
을 1씩 줄인다. 
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nice 

새 시기를 시작할 때 프로쎄스가 가지는 시간정량의 길이를 지정한다. 이 마당은 
-20 에서 19사이의 값을 가지며 부수값은 《 높은 우선순위》프로쎄스에，정수값은 
《낮은 우선순위》프로쎄 스에 해 당한다. 기 본값은 보통 프로쎄스에 해 당하는 0이 다. 
CPUs_allowd 

프로쎄 스를 실행할수 있도록 허 가한 CPU 의 비 트마스크를 지정 한다. 80 x 86 구조 
에서 최대처리기개수는 32므로 전체 마스크를 정수마당 하나에 집어 넣을수 있다. 
CPU_rennable 

프로쎄 스를 실행 중인 CPU 가 있 다면 이 것의 비 트마스크이다. 프로쎄 스를 실행 중 
인 CPU 가 없 다면 이 마당의 모든 비 트를 1로 설 정한다. 있 다면 프로쎄 스를 실 행 중인 
CPU 에 해당하는 비트를 1로 설정하고 나머지 비트는 모두 0으로 설정한다. 이런 식 
으로 지정하면 핵심부는 이 마당과 CPUs _ allowed 마당， CPU 를 지정하는 비트마스 
크를 론리 AND 연산을 하여 간단하게 해 당 프로쎄스를 지정 한 CPU 에서 실행하도록 
순서 짜기할수 있는지 확인할수 있 다. 
processor 

프로쎄스를 실행중인 CPU 가 있다면 이것의 색인값이다. 없다면 프로쎄스를 실행 
한 마지막 CPU 의 색 인값이 다. 

dc 匕 forkO 함수는 새로운 프로쎄스를 생성할 때 current (부모)와 p (자식)가 가리키 
는 프로쎄스의 counter 마당을 다음과 같이 설정한다. 
p->counter = ( current->counter +1) » 1； 
current->counter »= 1； 
if (! current -> counter ) 

current -> need_resched = 1； 

다시 말해서 부모에 남은 吐 ck 수를 반으로 나누어서 절반은 부모에 남겨놓고 나머지 
절만은 자식에게 준다. 이렇게 하는 리유는 사용자가 다음과 갈은 방법으로 CPU 시간을 
무제한으로 사용하는것을 막기 위해서이다. 부모프로쎄스가 똑같은 코드를 실행하는 자 
식프로쎄스를 만들고 자기는 완료한다. 여기에서 프로쎄스를 생성하는 주기를 적당히 조 
절하면 자식프로쎄스가 부모의 정 량이 만료되기전에 항상 새로운 정량을 얻을수 있을것 
이다. 하지만 이런 프로그람작성법은 핵심부가 생성된 프로쎄스에 기본시간정량을 그대 
로 주지 않기때문에 동작하지 않는다. 비슷하게 월에서 배경프로쎄스를 많이 시작하거나 
도형 탁상환경 에서 창을 많이 열어 불공평 하게 자원을 많이 차지 하지 못하게 한다. 좀 더 
일반적 으로 말하면 프로쎄 스는 자식을 여 러개 만들어서 자원을 독차지 할수 없다. (자기 에 
게 실시간 순서짜기방책을 부여할수 있는 권한이 없는 한) 

A CPU 별 자료구조 

각 프로쎄 스서 술자에 들어있는 마당외 에 도 매 CPU 가 무엇 을 하고있는지 서 술하는 
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정보가 추가로 필요하다. 이런 목적으로 핵심부는 schedule_data 형 NR_CPUS 배렬인 
aligned_data 를 사용한다. 이 구조체는 다음 두 마당으로 이루어진다. 

curr 

해당 CPU 에서 실행중인 프로쎄스의 프로쎄스서술자를 가리키는 지적자이 다. 보 
통 이 마당을 접근할 때에는 CPU 론리번호 n 을 변수로 하여 CPU _ curr ( n ) 마크로를 
사용한다. 

last_schedule 

해 당 CPU 에서 마지막으로 프로쎄스절환을 수행한 때의 64 bit 시 간형 (Time Stamp 
Counter ) 값이다. 보통 이 마당을 접근할 때에는 CPU 론리번호 n 을 변수로 하여 
last _ schedule ( n ) 마크로를 사용한다. 

대부분의 경우 모든 CPU 는 배럴에 있는 자신만의 요소를 접근하기때문에 
aligned_data 배 렬의 모든 요소가 서 로 다른 캐 쉬 에 들어 가도록 배 치 하는것 이 편리 하다. 
이렇게 하면 CPU 가 하드웨어캐쉬에 자신의 요소를 포함할 가능성이 높아진다. 

2) schedule 0함수 

schedule () 함수는 순서짜기프로그람 ( scheduler ) 을 실현한다. 

이 함수는 실행대기렬목록에서 실행할 프로쎄스를 찾아 CPU 를 할당한다. 여러 핵 
심부루린에서 이 함수를 직접적으로 또는 간접적으로 호출한다. 

4- 직접적인 호출 

current 프로쎄스가 필요로 하는 자원을 사용할수 없어 이 프로쎄스를 당장 차단해 
야 하는 경우에 순서짜기프로그람을 직접호출 (direct invocation ) 한다. 이 경우 프로쎄 
스를 차단하려는 핵심부루린은 다음과 같은 단계를 거친다. 

1. current 를 적당한 대기렬 (wait queue ) 에 넣는다. 

2. current 의 상태를 TASK_INTERRUPTIBLE 이나 TASK _ 

UNINTERRUPTIBLE 중 하나로 바꾼다. 

3. scheduleO 을 호출한다. 

4. 자원을 사용할수 있는지 검사하여 사용할수 없으면 2단계로 되돌아간다. 

5. 자원을 사용할수 있으면 current 를 대기렬에서 제거한다. 

보다싶이 핵심부루린은 프로쎄스에 필요한 자원이 사용가능한지 반복하여 검사한다. 
자원을 사용할수 없으면 scheduleO 을 호출하여 CPU 를 다른 프로쎄스에게 양보한다. 
후에 순서짜기프로그람이 다시 해당 프로쎄스에 CPU 를 할당하면 자원의 사용가능여부 
를 다시 검사한다. 

오랜시 간 반복작업 을 하는 많은 장치구동프로그람은 순서짜기프로그람을 직 접 호출하 
기도 한다. 구동프로그람이 매 반복주기마다 need_resched 마당을 검사하고 필요한 경 
우 scheduleO 함수를 호출하여 CPU 를 자진해서 반납한다. 

永 간접적인 호출 
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current 의 need _ resclied 마당을 1로 설정하여 순서짜기프로그람을 간접적으로 호 
출 (lazy invoca 吐 on ) 할수도 있 다. 사용자방식 프로쎄스로 되돌아가기 전에 항상 이 마 
당값을 검사하므로 함수는 가까운 시간안에 반드시 호출된다. 

례를 들어 다음과 같은 경우에 순서짜기프로그람을 우회적으로 호출한다. 

• current 가 자신의 CPU 시간의 정량을 모두 사용했을 때. 

update _ process _ times () 함수가 이것을 수행한다. 

• 어떤 프로쎄스가 깨여났는데 그 프로쎄스의 우선순위가 현재프로쎄스의 우 
선순위 보다 높을 때. 주로 wake _ up_process 0 함수가 호출하는 
reschedule _ idle () 함수가 이 것 을 수행 한다. (앞절의 《 프로쎄 스구별 하기》참고) 

• sched _ setscheduler () 또는 sched _ yild () 체계 호출을 실행 할 때. (뒤에 나 
오는《 순서 짜기 관련체 계 호출》참고) 

+■ 프로쎄스절환전에서 scheduleO 함수가 수행하는 일 
schedule 0 함수의 목적은 현재 실행 중인 프로쎄스를 다른 프로쎄스로 교체 하는것 
이다. 따라서 이 함수의 핵심결과물은 currnet 프로쎄스를 대신할 프로쎄스를 선택하여 
next 라는 변수를 이 프로쎄스의 서술자에 대한 지적자로 설정하는것이다. 체계에 
current 보다 우선순위가 높은 실행가능한 프로쎄스가 없다면 next 는 current 와 일치 
하고 따라서 프로쎄스절환은 일어나지 않는다. 

scheduleO 함수는 효률성을 위해 변수 몇개를 초기화하며 시작한다. 

prev = current ； 

this_CPU = pre v -> processor : 

sched_data = & aligned_data [ this _ CPU ] ； 

여기서 보는것처럼 current 가 반환하는 지적자를 prev 에 저장하고 현재 실행중인 
CPU 의 론러 번호를 this _ CPU 에 저장하며 aligned _ data 배렬 에서 이 CPU 에 해당하는 
항목에 대 한 지적 자를 sched _ data 에 저장한다. 

다음으로 prev 가 대역핵심부잠그기 (global kernel lock ) 나 대역새치기잠그기 
(global interrupt lock ) 를 담지 않게 하고(《 대역핵심부잠그기》와 《 대역새치기금 
지》참고) 새치기를 다시 허용한다. 
if ( prev -> lock_depth >= 0) 
spin_unlock (& kernel _ flag ) : 
releasejrqlock ( this _ CPU ) : 

_sti ( ) ; 

일반적으로 프로쎄스는 프로쎄스절환을 거치는 동안 잠그기를 소유하면 안된다. 잠 
그기를 소유하면 다른 프로쎄스가 같은 잠그기를 획득하려는 즉시 체계가 멈추게 된다. 
그렇지만 scheduleO 함수가 lock _ depth 마당의 값을 바꾸지 않는데 주목하자. prev 가 
실행을 재개할 때 이 마당의 값이 부수가 아니라면 kernel _ flag 스핀잠그기를 다시 획득 
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한다. 따라서 프로쎄스절환을 거치면서 대역핵심부잠그기를 자동으로 해제하고 다시 획 
득하게 된다. 반면에 대 역새 치기 잠그기는 자동으로 다시 획득하지 않는다. 

schedule () 은 실행가능한 프로쎄스들을 들여다보기 시작하기 전에 지역새치기를 
금지하고 실행대기렬을 보호하는 스핀잠그기를 획득해야 한다. 
spin _ lock_irq (& runqueue _ lock ) : 

다음으로 prev 가 주어진 정량을 모두 사용한 Round Robin 방식의 실시간프로쎄스 
인지 ( policy 마당이 SCHED _ RR ) 검 사한다. 옳다면 scheduleO 함수는 prev 에 새 정 
량을 할당하고 이것을 실행대기렬목록의 맨끝에 넣는다. 

if ( prev->policy == SCHED_RR && ! prev -> counter ) { 
prev->counter = (20- prev -> nice ) / 4 + 1； 
move _ last_runqueue ( prev ); 

} 

프로쎄스의 nice 마당은 -20 에서 +19 사이의 범위에 사실을 상기하자. 따라서 
scheduleO 은 counter 마당을 11에서 1사이의 tick 수로 다시 채운다. nice 마당의 기본값 
은 0이므로 일반적으로 프로쎄스는 6 tick , 즉 대략 60 ms 의 새로운 정량을 소유한다. 

다음으로 scheduleO 함수는 prev 의 상태를 검사한다. 프로쎄스에 차단하지 않는 
대기중인 신호가 있으면서 프로쎄스상태가 TASK_INTERRUPTIBLE 이라면 프로쎄스 
상태를 TASK_RUNNING 으로 설정한다. 이 작업은 prev 에 처리기를 할당하는것이 아 
닌 단지 prev 에 실행할 프로쎄스로 선택될수 있는 기회를 주는것뿐이다. 

if ( prev->state =- TASKJNTERRUPTIBLE && signal _ pending ( prev )) 
prev->state = TASK _ RUNNING ； 

prev 가 TASK_RUNNING 상태 가 아니 라면 프로쎄 스가 어 떤 외 부자원을 기 다려 야 
해서 프로쎄스가 직접 scheduleO 함수를 호출한 경우이다. 따라서 실행대기렬목록에서 
prev 를 제거해야 한다. 

if ( prev->state != TASK _ RUNNING ) 
del _ from_runqueue ( prev ) : 

scheduleO 함수는 순서짜기프로그람을 간접적인 방법으로 실행한 경우 current 의 
need_resched 마당을 0으로 재설정한다. 
prev -> need_resched =0； 

이제 scheduleO 함수는 다음 시간정량동안 실행할 프로쎄스프레임 선택할 차례이 
다. 이를 위해 함수는 실행대기렬목록을 검색한다. 이 코드의 목적은 next 에 우선순위 
가 가장 높은 처리기의 프로쎄스서술자지적자를 저장하는것이다. 
repeat _ schedule : 

next = init_tasks [ this _ CPU ] : 
c = -1000； 
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list _ for_each ( tmp , & runqueue _ head ) { 

p = list_entry ( tmp , struct task _ struct , run _ list ) : 
if ( p -> CPUs_runnable & p -> CPUs_allowed & ( l « this _ CPU ) ) { 
int weight = goodness ( p , this _ CPU , prev -> active _ mm ) : 
if (weight > c ) 


이 함수는 init _ task [仕 iis _ CPU ] 가 가리키는 프로쎄스 즉 실행중인 CPU 에 관련된 
프로쎄스 0을 가리키는 지적자를 저장하도록 next 를 초기화한다. 그리고 변수 c 를 - 
1000으로 설정한다. 후에 《 실행가능한 프로쎄스가 얼마나 우수한가》에서 보지만 
goodness () 함수는 변수로 전달한 프로쎄스의 우선순위를 나타내는 옹근수를 반환한다. 

실행대기렬에 있는 프로쎄스를 검색할 때 schedule 0은 다음 두 조건 모두에 해 당 
하는 프로쎄스만을 고려한다. 

1. 실행 중인 CPU 에서 실행 가능하다. ( cpus_allowed & (1 « this _ cpu )) 

2. 다른 CPU 에서 실행 중이 아니 다. ( cpus_runnable & (1« this _ cpu ) 앞 
에서 cpus _ runnable 에 관한 설명 참고) 

이 순환은 실행대기렬에서 무게값이 가장 높은 첫번째 프로쎄스를 선택한다. 따라서 
검색을 마치면 next 는 가장 우수한 후보를 가리키고 변수 c 는 해당 프로쎄스의 우선순 
위를 저장한다. 실행대기 렬 이 비 여있을수도 있는데 이때 에는 순환을 하지 않고 next 는 
실행중인 CPU 와 관련된 교환기핵심부스레드를 가러킨다. 또한 가장 우수한 후보가 이 
전 현재프로쎄스인 prev 일수도 있다. 순환을 빠져 나갈 때 변수 c 가 0 값인 특수한 경우 
가 있다. 이것은 현재 실행중인 CPU 에서 실행할수 있는 실행대기렬목록에 있는 모든 
프로쎄스가 자신의 정량을 완전히 소비했을 때 즉 해당 프로쎄스들의 counter 마당값이 
모두 0인 경우이다. 이때에는 새로운 시기를 시작해야 한다. scheduleO 함수는 존재하 
는 모든 프로쎄 스에 ( TASK _ RUNNING 상태 인 프로쎄 스뿐만아니 라) 새 로운 정 량으로 
counter 값의 절반에 nice 값에 따른 증가값을 더 한 값을 부여 한다. 
if (! c ) { 

struct task_struct * p ; 

spin _ unlock_irq ( & runqueue _ lock ) : 
read_lock (& tasklist _ lock ) : 
for _ each_task ( p ) 

p->counter = ( p->counter » 1) + (20 - p -> nice ) / 4 + 1； 
read_unlock (& tasklist _ lock ) : 
spin _ lock_irq (& runqueue _ lock ) : 
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goto repeat _ schedule : 

} 

이렇게 해서 보류되거나 ( suspended ) 중지된 ( stopped ) 프로쎄스의 동적우선순위는 
주기적으로 높아전다. 앞에서 설명한대로 보류되거나 중지된 프로쎄스의 counter 값을 
증가시키는것은 입출력위주 프로쎄스를 선취하도록 하기 위해서이다. 그렇지만 정량이 
자주 증가하더라도 그 값은 절대로 약 230 ms 를 넘을수 없다. 

이제 schedule () 함수가 최우수후보를 선택해서 next 가 그 프로쎄스서술자를 가리 
킨다고 하자. 다음으로 aligned _ data 배렬에서 실행중인 CPU 에 해당하는 요소를 갱신 
하고(변수 sched _ data 가 이 요소를 참조한다.)， next 의 프로쎄스서술자에 있는 실행중 
인 CPU 의 색인값을 기록하고 실행대기렬목록의 스핀잠그기를 해제하고 국부새치기를 
다시 허용한다. 

sched _ data->curr = next ； 
next->processor = this _ cpu : 
next -> cpus_runnable = 1 UL « this _ cpu : 
spin _ unlock_irq (& runqueue _ lock ) : 

이제 scheduleO 함수는 실제 프로쎄스절환을 진행할 준비가 되였다. 그러나 먼저 
한가지 알아둘 사항이 있다. 최우수후보인 next 가 이전에 실행하던 프로쎄스 prev 와 
같다면 scheduleO 함수를 끝마쳐도 된다. 
if (prev == next ) { 
prev->policy &= ~ SCHED _ YIELD ; 
if ( prev -> lock_depth >= 0) 

spin_lock (& kernel _ flag ) : 

return ； 

} 

scheduleO 함수는 프로쎄스의 lock _ dep 比 i 마당이 부수가 아니라면 대역핵심부잠그 
기를 다시 획득한다는점에 류의하자. 이것은 이 함수의 첫번째 작업을 설명할 때 언급하 
였 다. 

prev 가 아닌 다른 프로쎄스를 선택하였다면 프로쎄스절환이 일어나야 한다. rdtsc 
기호언어명령을 사용하여 시간형계수기의 현재값을 알아내서 이것을 aligned _ data 배렬 
에서 실행중인 CPU 에 해 당하는 항목의 last_schedule 마당에 저장한다. 
asm volatile (" rdtsc " : “= A ” ( sched _ data -> last _ schedule )) : 

kstat 의 context _ swtch 마당을 1 증가시켜 핵심부가 관리 하는 통계정보를 갱신한다. 
kstat . context _ swtch ++ : 

next 의 주소공간을 옳바로 설정하는것 역시 펼수적이다. 앞절에서 프로쎄스서술자 
의 active _ mm 마당은 프로쎄스가 실제로 사용하는 기억기서술자를 가리키고 mm 마당은 
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프로쎄스가 소유하는 기억기서술자를 가리킨다고 서술하였다. 보통 프로쎄스에서 두 마 
당의 주소는 같지만 핵심부스레드는 자신의 주소공간이 없으므로 mm 마당은 항상 
NULL 값이다. scheduleO 함수는 next 가 핵심부스레드라면 prev 가 사용하던 주소공간 
을 사용하게 만든다. 
if ( ! next -> mm ) { 

next -> active_mrn = prev -> active _ mm : 
atomicjnc (技 prev -> active _ mm -> mm _ count ) : 
cpu _ tlbstate [ this _ cpu ]. state = TLBSTATE _ LAZY ; 

} 

이전 판본의 Linux 에서 핵심부스레드는 자기만의 주소공간이 있었다. 순서짜기프 
로그람이 새 로 실행할 프로쎄스로 핵 심부스레 드를 선택 한 경우 페지표를 교체 하는것은 
쓸모없 으므로 이 런 설계 는 최 선은 아니 였 다. 핵 심부방식 에서 동작하는 핵 심부스례 드는 
선형주소공간의 마지막 1 GB 만을 사용하며 체계의 모든 프로쎄스에서 이 령역에 대한 사 
용은 똑같다. 더 나쁜점은 cr 3 등록기에 쓰기를 하면 모든 TLB 입구점을 무효화해서 성 
능에 큰 손실을 준다. Linux 2. 6은 next 가 핵심부스레드라면 폐지표를 건드리지 않으 
므로 더 효률적이다. 보다 더 최적화하기 위해서 next 가 핵심부스레드인 경우 
scheduleO 함수는 프로쎄스를 지연 TLB 방식으로 설정한다. 

반면에 next 가 정규프로쎄스라면 scheduleO 함수는 prev 의 주소공간을 next 의 
주소공간으로 교체한다. 
if ( next -> mm ) 

switch_mm ( prev -> ac 仕 ve _ mm , next -> mm , next , this _ cpu ) : 
prev 가 핵심부스레드라면 scheduleO 함수는 prev 가 사용하던 주소공간을 해제하 
고 prev -> active _ mm 4- 재설정한다. 
if ( ! prev -> mm ) { 
mmdrop ( prev _> ac 仕 ve _ mm ) { 
prev -> active_mm = NULL ； 

} 

mmdrop 0 는 기억기서술자의 사용회수를 감소시킨다는것을 상기하자. 이 회수가 0 
이 되면 이 서술자와 이와 관련된 페지표와 가상기억기령역도 해제한다. 

이제 scheduleO 은 마지막으로 switch _ to () 를 호출하여 prev 와 next 간에 프로쎄 
스절환을 수행한다. 

switch _ to ( prev , next , prev ); 

4 프로쎄스절환후에 scheduleO 이 하는 일 
scheduleO 함수에서 switch _ to 마크로를 호출하는 명령이후에 나오는 명령은 next 
프로쎄스가 실행하는것이 아니고 후에 순서짜기프로그람이 prev 를 다시 선택하여 실행 
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하려고 할 때 prev 프로쎄스가 실행한다. 그런데 그 당시의 변수 prev 는 우리가 
schedule 0함수를 설명하기 시작할 때 교체되여 나간 원래 프로쎄스를 가리키는것이 
아니라 prev 를 다시 실행하도록 순서짜기할 때 이 프로쎄스에 교체당하는 프로쎄스를 
가리 킨 다. 

scheduleO 함수의 마지막명령은 다음과 같다. 

— schedule_tail ( prev ) ; 
if ( current -〉 look_depth >= 0) 
spin—lock (技 kernel _ flag ) ； 
if ( current -> need _ resched ) 
goto need resched _ back ； 
return ； 

보다싶이 scheduleO 은 _ schedule _ tail () 을 호출하고 필요하다면 대역핵심부잠그 
기를 다시 획득하고 다른 프로쎄스가 현재프로쎄스의 need _ resched 마당을 설정했는가 
를 검사한다. 이 경우 전체 scheduleO 함수를 처음부터 다시 시작하고 그렇지 않으면 
완료한다. 

단일 처리 기 체 계 에 서 _ schedule_tail 0 함수는 prev 의 policy 마당에 있 는 

SCHED _ YIELD 기발을 지우는 일만 한다. 반면에 다중처리기체계에서 이 함수는 본질 
적 으로 다음 코드조각과 등등한 코드를 실행 한다. 
policy = prev -〉 policy ; 
prev->policy = policy 技 - SCHED_YIELD ； 
wmb ( ) ； 

spin _ lock (& prev - > alloc _ lock ) ； 
prev -> cpus_runnable = ~0 UL ; 
spin _ lock _ irqsave (& runqueue _ lock , flags ) ； 

if ( prev->state == TASK 一 RUNNING 技技 prev != init _ task [ smp _ processor_id 

()] 

技技 prev -> cpus_runnable == ~0 UL 技技 ! (policy & SCHED _ YIELD )) 
reschedulejdle ( prev ) ； 

spin _ unlock_irqrestore (& runqueue _ lock , flags ) ； 
spin_unlock (技 prev -〉 alloc _ lock ); 

처 리 기 가 policy 마당을 갱 신하는 기 호언어 명 령 과 alloc_lock 스핀잠그기 를 회 득하는 
명령을 뒤섞어버 리지 않도록 wmbO 기억기장벽을 사용한다. 다중처리기체계에서 
_ schedule _ tail () 의 역할은 상당히 중요하다. 이 함수는 교체되여 나간 프로쎄스를 다 
른 CPU 에서 다시 순서짜기할수 있는가를 검 사하기 때 문이 다. 다음과 같은 조건을 충족 
하는 경우에만 이 런 시도를 한다. 
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■ prev 는 TASK _ RUNNING 상태 이 다. 

■ prev 는 실행하는 CPU 의 교환기프로쎄스가 아니다. 

■ prev -> policy 의 SCHED _ YEILD 기 발이 설정되 여 있지 않다. 

■ cpus_runnable 마당을 설정한 때부터 if 문장에 이르는 시간동안 (if 문장은 
runqueue _ lock 스핀잠그기로 보호하고있 다. ) 다른 CPU 가 prev 를 선택 하지 않았다. 

_ schedule _ tail () 은 prev 의 우선순위가 다른 CPU 의 현재 프로쎄스를 교체 할만한 
가를 검사하려고 reschedule _ idle () 을 호출한다. wake _ up _ process () 도 이 함수를 호 
출하며 후에 《다중처리기체계에서 순서짜기》에서 설명한다. 다음 두 부분을 통해 순서 
짜기프로그람분석을 완료한다. 이것은 각각 goodnessO 함수와 reschedule _ idle () 함수 
를 설명한다. 

3) 실행가능한 프로쎄스가 얼마나 우수한가 

순서짜기알고리듬의 핵 심은 실행 대 기렬목록에 있는 모든 프로쎄 스중에서 가장 우수 
한 후보를 찾는것이다. 이 작업이 바로 goodnessO 함수가 하는 일이다. 이 함수는 다 
음과 갈은 변수를 받는다. 

> 후보프로쎄스의 서술자를 가리키는 지적자 p 

> 실행중인 CPU 의 론리번호 this_cpu 

> 교체해 나갈 프로쎄스의 기억기서술자의 주소 this_mm 

goodnessO 함수가 반환하는 정수값 weight 는 p 의 《 우수성》을 측정 한 값으로서 
다음과 같은 의미를 가전다. 

weight = -1 

p 는 prev 프로쎄스이고 SCHED _ YIELD 기발이 1 이다. 실행대기렬에 실행가능한 
다른 프로쎄스(교환기프로쎄스를 제외하고)가 없는 경우에만 이 프로쎄스를 선택한다. 

weight = 0 

자기의 정량을 모두 소비한 ( p -> counter 가 0) 일반프로쎄스이다. 실행가능한 모 
든 프로쎄스가 자기의 정 량을 완전히 소비한 경우가 아니 라면 이 프로쎄스를 실행할 
프로쎄스로 선택하지 않는다. 

2 < weight <= 77 

P 는 정 량을 다 소비하지 않은 일 반프로쎄 스이 다. 다음과 같이 무게 값을 계 산한다. 

weight = p->counter +20 p->nice ; 

if (p -> processor == this _ cpu ) 
weight += 15； 

if ( p->mm == this_mrn 11 ! p -> mm ) 
weight += 1； 

다중처 리기체계 에서는 해당 프로쎄스를 마지막으로 실행 한 처 리기 가 순서짜기 프 
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로그람을 실행하는 프로쎄스라면 아주 큰 값 (+15) 을 준다. 이것은 프로쎄 스가 여 러 
CPU 사이를 오가는 회수를 줄여서 하드웨어캐쉬놓침회수를 줄이는데 도움을 준다. 

이 함수는 프로쎄스가 핵심부스레드이거나 이전에 실행하던 프로쎄스와 기억기주 
소공간을 공유하면 약간의 값 (+1) 을 준다. 주로 cr 3 등록기에 쓰기를 하여 TLB 를 무 
효화하지 않으려고 이런 프로쎄스를 선취한다. 
weight >= 1000 

P 는 실시간프로쎄스이다. weight 는 p->counter + 1000값이다. 

4) 다중처리기체계에서 순서짜기 

Linux 2.6 에서는 이전판본과 비교하여 다중처리기체계에서의 성능이 향상되도록 순 
서짜기알고리듬을 개선하였다. 또한 순서짜기프로그람을 단순화했는데 이 자체로도 큰 
개선이다. 

지금까지 본것처럼 매 처리기는 자기가 현재 실행중인 프로쎄스를 교체하려고 
schduleO 함수를 실행한다. 그렇지만 체계성능을 높이려고 처리기끼리 정보를 교환하 
는것도 가능하다. 특히 프로쎄스절환직후 어떤 처리기든지 대체로 방금 교체된 프로쎄스 
를 이보다 우선순위가 낮은 프로쎄스를 실행하는 다른 CPU 에서 실행해야 하는가를 검 
사한다. 이 작업 이 reschedule _ idle () 에서 수행하는 일이다. 

rescheduleJdleO 함수는 변수로 전달한 프로쎄스 p 를 실행할 다른 CPU 를 찾아 
처리기간새치기를 사용하여 다른 CPU 가 순서짜기를 수행하게 만든다. 이 함수는 정해 
진 순서대로 일련의 검사를 수행한다. 그 가운데서 하나라도 성공하면 선택한 CPU 에 
RESCHEDULE _ VECTOR 처 리 기 간 새 치 기 프레 임 전송하고 완료한다. 검 사가 실 패 하면 
다시 순서짜기를 하지 않고 완료한다. 검사하는 순서는 다음과 같다. 

1. p 를 마지막으로 실행한 CPU (즉 p -> processor 색인값에 해당하는 CPU ) 가 쉬 
고 있는가 

best_cpu = p -> processor ； 

if (( p -> cpus_allowed 沒 p -> cpus_runnable & (1 « best _ cpu )) 

&& cpu _ curr ( best _ cpu ) == init_tasks [ best _ cpu ]) { 
send _ now _ idle : 

need _ resched = init_tasks [ best _ cpu ] -> need _ resched : 
init_tasks [ best _ cpu ] - > need_resched = 1； 
if ( best_cpu != smp _ processor _ id ( ) && ! need _ resched ) 
smp _ send_reschedule ( best _ cpu ) : 

} 

이 경우 프로쎄스를 선취할 필요가 없고 해 당 처 리 기의 하드웨 어 캐쉬 가 여전히 쓰이 
기때 문에 (유용한 자료가 들어 있음) 가장 좋은 경우이 다. scheduleO 함수가 실행 가능한 
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프로쎄 스를 쫓아내 고 이것을 교환기핵 심부스레 드로 교체하는 일은 없으므로 순서짜기프 
로그람이 reschedule _ idle () 을 호출할 때에는 이런 경우가 일어나지 않는다. 그러나 
wakeup_process () 가 reschedule _ idle () 을 호출할 때 즉 P 가 방금 막 깨여났을 때에 
는 이런 경우가 있을수 있다. 

대상처 리기 에서 다시 순서짜기 가 일어 나게 하려 고 교환기핵심부스례드의 
need _ resched 마당을 1로 설정한다. 대상처리기가 reschedle _ idle () 함수를 실행하는 
처 리 기와 다르다면 RESCHEDULE _ VECTOR 처 리 기 간 새 치 기도 발생 시 킨다. 사실 쉬 
고있는 처리기는 일반적으로 전력소비를 줄이려고 halt 기호언어명령을 실행하므로 새치 
기 만이 해 당 CPU 를 깨 울수 있 다. 그렇 지 만 다시 순서 짜기하는 속도를 빠르게 하고 처 
리기간 새치기를 사용하지 않기 위해 교환기핵심부스레드가 능동적으로 need_resched 
마당을 계속해서 검사하면서 그 값이 -1 에서 +1로 바뀌길 기다릴수도 있다. 기동단계에 
서 핵심부에 《 idle = poll 》변수를 전달하여 이 러한 전력을 많이 소비하는 알고리듬을 
활성화할수 있다. 

2. p 를 실행할수 있는 쉬고있는 처 리기가 있는가 

oldest_idle = -1; 

for ( cpu = 0； cpu < smp _ num _ cpus , cpu ++) { 

if (! ( p -> cpus_allowed 技 p -> cpus_runnable & (1 « cpu ))) 
continue : 

if ( cpu_curr ( cpu ) == init_tasks [ cpu ] 

&& last_schedule ( cpu ) < oldest _ idle ) 
oldest idle = last schedule ( cpu ) : 

target_tsk = cpu_curr ( cpu ) ; 

} 

if (oldestjdle != -1) { 

best_cpu = target _ tsk -> processor ； 
goto send _ now _ idle ; 

} 

이 함수는 p 를 실행할수 있는 쉬고있는 처리기중 가장 오래동안 사용하지 않은 처 
리기를 선택한다. 모든 CPU 에서 가장 마지막으로 프로쎄스절환이 일어난 시점의 시간 
형 계수기를 aligned _ data 배렬에 저장한다는것을 상기 하자. 이 함수는 가장 오래동안 
쉬고있는 CPU 를 찾아서 1번에서 설명한 재순서짜기를 일으키는 건너된다. 최장시간휴 
식 규칙 (oldest idle rule ) 의 리 론적 인 근거 는 이 CPU 가 가장 많은 수의 무효한 하드웨 
어캐쉬행을 가지는 경향이 있다는것 이다. 

3. p 를 실 행할수 있으면서 현재 프로쎄 스의 동적우선순위 가 p 보다 낮은 프로쎄스가 
있는가 
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max_prio = 0； 

for (cpu = 0； cpu < smp _ num _ cpus : cpu ++) { 
if ( ! ( p -> cpus_allowed & p -> cpus_runnable & (1 « cpu ) ) ) 
continue : 


prio = goodness ( p , cpu , cpu_curr ( cpu ) -> active _ mm ) - 

goodness ( cpu_curr ( cpu ) , cpu , cpu_curr ( cpu ) -> active _ mm ) ； 
if (prio > max _ prio ) 

max_prio = prio , target_tsk = cpu_curr ( cpu ) : 


if ( max_prio > 0) { 


target _ tsk -> need_resched = 1； 
if ( target _ tsk->processor != smp _ processor _ id ()) 

smp _ send_reschedule ( target _ tsk -> processor ) : 


} 

reschedule _ idle () 은 현재 프로쎄스를 p 로 교체 할 때의 좋은 정도와 현재 프로쎄스 
를 현재프로쎄스자기로 교체할 때의 좋은 정도의 차이가 가장 큰 처러기를 찾는다. 최대 
값이 정수면 해당 처리기에서 재순서짜기가 일어나게 만든다. 이 함수는 단순히 해당 프 
로쎄스의 counter 와 nice 마당만 보는것 이 아니고 현재 실행 중인 프로쎄스를 다른 주소 
공간을 사용할수 있는 다른 프로쎄스로 교체 할 때 드는 비용까지 고려하는 goodness () 
함수를 사용한다. 


5) 순서 짜기알고리 듬성 능 

Linux 순서짜기알고리 듬은 자체 로 필요한 기 능을 내 장하고있 으며 상대 적 으로 따라 
가기도 쉽다. 따라서 많은 핵심부해커 가 이것을 더 욱 개선하려 고 시도한다. 그렇지만 순 
서짜기프로그람은 핵심부중에서도 아주 신비한 부분이다. 몇가지 핵심변수를 바꿔서 성 
능을 크게 바끌수 있지만 대부분 얻은 결과를 뒤받침 할만한 리론적 인 기 반이 없다. 더구 
나 이렇게 얻은 긍정적 인(또는 부정적 인) 결과가 다양한 사용자요청(실시 간, 호상작용， 
입출력위주, 배경작업 등)을 섞는 방법을 크게 바꾼 경우에도 그대로 지속되리라 확신할 
수도 없다. 실제로 제안한 순서짜기방책의 대부분은 요청을 인위적으로 혼합하여 낮은 
체 계 성 능을 내 도록 하는것 이 가능하다. 

Linux 2.6 순서짜기 프로그람에 있는 몇가지 함정을 간단히 정리해보자. 후에 나오 
겠지만 여기서 설명하는 제한사항중 몇가지는 많은 사용자를 수용하는 대형체계에서 아 
주 중요하다. Linux 순서 짜기 프로그람은 Workstation 한대에서 동시 에 프로쎄스 수십 개 
를 실행하는 경우에 무척 효률적 이다. 

永 알고리듬은 규모가 커지면 잘 동작하지 않을수 있다 
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존재하는 프로쎄 스수가 매 우 많다면 한번 에 모든 동적 우선순위 를 다시 계 산하는것 은 
비 효률적 이 다. 

전통적인 Unix 핵심부에서는 매초마다 동적우선순위를 다시 계산해서 문제가 더욱 
심각하였다. 그대신 Linux 는 순서짜기프로그람의 부하를 최소화하기 위해 노력한다. 
Linux 는 모든 실행가능한 프로쎄스가 자신의 시간정량을 모두 소비했을 때에만 우선순 
위를 다시 계산한다. 따라서 프로쎄스수가 많아지면 다시 계산하는데 시간이 더 걸리겠 
지만 재계산회수는 줄어든다. 

이런 간단한 접근방법 에는 부족점 이 있다. 실행가능한 프로쎄스수가 아주 많고 입출 
력 위 주프로쎄 스가 가끔씩 실행 되 는 경 우에 는 호상작용을 하는 응용프로그람의 반응시 간 
은 더 길어진다. 

4 체계에 부하가 많이 걸리는 경우 정해진 정량기간은 너무 길다 

사용자가 느끼 는 체 계반응성 은 실 행 가능한 즉 CPU 시 간을 할당받으러 고 기 다리 는 
프로쎄스의 평균개수인 체계부하 (system load ) 에 따라 달타진다. 

앞에 서 언급한대 로 체 계반응성 은 실 행 가능한 프로쎄 스의 평 균시간정량기 간에 도 의 존 
한다. Linux 에서 미리 정의한 시간정량값은 체계부하가 매우 높은 고성능체계에는 아 
주 큰 편이 다. 

4 입 출력 위 주프로쎄 스를 선취 하는것 이 최 선은 아니 다 

입 출력위 주프로쎄 스를 선취하는것 은 호상작용하는 프로그람의 반응시 간을 줄이 는 좋 
은 방도이지만 완벽하지는 않다. 실제로 거의 사용자와 호상작용을 하지 않는 일괄작업 
프로그람에서도 입출력위주인 프로그람이 있다. 례를 들어 하드디스크에서 많은 자료를 
읽 어야 하는 자료기지검색 엔진이 나 저속망련결을 통해서 원격주름퓨터 에서 자료를 수집 
해야 하는 망응용프로그람을 생각해보자. 이런 종류의 프로쎄스는 반응시간이 짧을 필요 
는 없지 만 순서짜기알고리 듬은 이것들을 선취 한다. 반면에 CPU 위 주의 호상작용프로그 
람인 경 우 CPU 를 사용하면서 우선순위 가 낮아지 는데 차단을 일 으키 는 입 출력연산때 문 
에 높아지는 동적우선순위가 이에 미치지 못하므로 사용자에게는 반응성이 떨어져보일수 
도 있다. 

泰 실시 간응용프로그람지원 이 취 약하다 

1장에서 설명한것처럼 비선취형핵심부는 실시간응용프로그람에 적당하지 않다. 프 
로쎄스가 새 치기 나 례외를 처 리하느라 핵심부방식 에서 몇미 리초를 보낼수도 있기때 문이 
다. 이 시간동안 실행가능해진 실시간프로쎄스의 실행을 재개할수 없다. 반응시간이 예 
측가능하고 짧아야 하는 실시간응용프로그람은 이것을 받아들일수 없다. 

앞으로 등장할 Linux 판본은 SVR 4 의 고정선취지점 (fixed preemption point ) 을 
실현하거 나 핵심부를 완전히 선취가능하게 하여 이 문제를 해결할수도 있을것 이다. 그렇 
지만 이런 설계가 Linux 같은 범용조작체계에 적당한가는 의문으로 남아었다. 

사실 핵심부선취은 효률적인 실시간순서짜기프로그람을 실현하기 위한 몇가지 필수 
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조건중 하나일뿐이다. 이밖에도 고려해야 하는 여러 문제가 있다. 례를 들어 실시간프로 
쎄스는 종종 일반프로쎄스가 사용중인 자원을 필요로 한다. 그래서 실시간프로쎄스는 우 
선순위 가 자신보다 낮은 프로쎄스가 자원을 해제 할 때 까지 기 다려야 할수도 있다. 이 런 
현상을 우선순위 반전 (priority inversion) 이라고 한다. 게다가 실시간프로쎄 스는 다른 
우선순위 가 낮은 프로쎄스(례를 들면 핵심부스레드)에 맡긴 핵심부봉사를 필요로 할수도 
있다. 이 런 현상을 가리켜 숨은 순서짜기 仕 ddden scheduling) 라고 한다. 효률적 인 
실시 간순서짜기는 이 런 문제를 고려 하고 해결해 야 한다. 

현재 이런 모든 결점을 고친 새로운 순서짜기프로그람을 개발하여 Linux 2. 6에 추 
가하였다. 이 순서짜기프로그람은 매우 효률적 이 다. 

3. 순서짜기관련체계호출 

프로쎄스가 자신의 우선순위와 순서짜기방책을 바끌수 있도록 여러가지 체계호출을 도 
입하였다. 일반적인 규칙은 사용자는 자신이 소유한 프로쎄스의 우선순위를 언제든지 낮출 
수 있다는것이다. 그러나 다른 사용자가 소유한 프로쎄스의 우선순위를 바꾸려 하거나 자신 
이 소유한 프로쎄스의 우선순위를 높이 려 한다면 반드시 관리자권한이 있어 야 한다. 


1) nice 0체계호출 

niceO 체계호출은 프로쎄스가 자신의 기본우선순위를 바끌수 있게 한다. 
increment 변수로 전달한 정수값을 프로쎄스서술자의 nice 마당을 바꾸는데 사용한다. 
Unix 명령 nice 는 사용자가 순서짜기우선순위를 바꿔서 프로그람을 실행할수 있도록 이 
체계호출을 러용한다. 

sys _ nice () 봉사루린은 niceO 체계호출을 처리한다. 

increment 변수에 어떤 값이든 지정할수 있지만 절대값이 40을 넘어가면 이것을 40 
으로 맞춘다. 부수는 우선순위를 높이는 요청으로 관리자권한이 필요하다. 반면에 정수 
는 우선순위를 낮추는 요청이다. 부수인 경우 이 함수는 capableO 함수를 호출하여 프 
로쎄 스에 CAP_SYS_NICE 특질 (capability) 이 있는가를 확인한다. capableO 함수와 
특질의 개념은 후에 설명한다. 

사용자가 우선순위를 바꾸는데 필요한 특질이 있음을 확인하면 sys_nice() 는 
current 의 nice 마당에 mcrement 값을 더한다. 필요하다면 이 마당의 값을 조정하여 
그 값이 -20 보다 작거나 19보다 클수 없게 만든다. 

이제는 호환성을 위해서만 niceO 체계호출을 유지하며 다음에 설명하는 
setpriority () 체계호출이 이것을 대신한다. 

2) getpriorityO 와 setpriority () 체계호출 

niceO 체계호출은 이것을 호출한 프로쎄스에만 영향을 미친다. getpriorityO 와 
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setpriori 切 0 체계호출은 지정한 프로쎄스그룹에 있는 모든 프로쎄스의 기본우선순위에 
영향을 미친다. getpriorityO 는 20 에서 지정한 그룹내에 있는 모든 프로쎄스의 기본우 
선순위중 가장 낮은 nice 마당의 값을 뺀 값을 반환한다. setpriorityO 는 지정한 그를내 
에 있는 프로쎄스의 기본우선순위를 지정한 값으로 설정한다. 

핵심부는 이 체계호출을 각각 sys_getpriority() 와 sys_se 仕) riorityO 봉사루린으 
로 실현한다. (kernel\sys.c) 

이 두 함수는 모두 다음과 갈은 변수를 사용한다. 

which 

프로쎄스그룹을 식별한다. 다음 값중 하나이 다. 

PRIO_PROCCESS 

프로 쎄스 ID (프로 쎄스서술자의 pid 마당)와 일치하는 프로 쎄스를 선택한다. 

PRIO_PGRP 

그룹 ID (프로 쎄스서술자의 pgrp 마당)와 일치하는 프로 쎄스를 선택한다. 

PRIO_USER 

사용자 ID (프로 쎄스서술자의 uid 마당)와 일치하는 프로 쎄스를 선택한다. 

who 

프로쎄스를 선택하는데 사용하는 pid 나 pgrp, uid 마당 (which 의 값에 따라)의 
값이다. who 가 0 이면 이 값을 current 프로쎄스의 해당 마당값으로 설정한다. 

niceval 

새로운 기본우선순위값이다. (sys_setpriority() 에만 필요하다.) -20( 가장 높은 
우선순위)에서 +19 (가장 낮은 우선순위)사이의 값이다. 

앞서 설명 한바와 같이 CAP_SYS_NICE 특질이 있는 프로쎄스만 자신의 기본우선순 
위를 높이거나 다른 프로쎄스의 기본 우선순위를 바물수 있다. 

앞에서 본것처럼 체계호출은 오유가 발생한 경우에만 부수값을 반환한다. 따라서 
getpriorityO 함수는 -20 에서 +19 사이에 있는 일반 nice 값이 아니고 1 에서 40 사이에 
있는 부수가 아닌 값을 반환한다. 

3) 실시간프로쎄스관련 체계호출 

이제부터 프로쎄스가 자신의 순서짜기규칙을 바꾸는 방법과 특별히 실시간프로쎄스 
가 되게 하는 일련의 체계호출을 소개한다. 

여기서도 마찬가지로 프로쎄스는 자기자신과 다른 프로쎄스의 프로쎄스서술자에 있 
는 rt_priority 와 policy 값을 바꾸러면 CAP_SYS_NICE 특질이 있어야 한다. 

A sched_getscheduler() 와 sched_setscheduler() 체계호출 

sched_getscheduler() 체계호출은 pid 변수로 지정한 프로쎄스에 현재 적용하는 순 
서짜기 방책 을 질문한다. pid 가 0 이면 이 체 계 호출을 실행 한 프로쎄스의 순서짜기방책을 
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반환한다. 이 체 계호출이 성공하면 지정 한 프로쎄스의 순서짜기방책으로 SCHED_FIFO 
나 SCHED _ RR , SCHED_OTHER 를 반환한다. 이 체계호출을 처리하는 
sys_sched_getscheduler () 봉사루린은 find_process_by_pid () 함수를 호출하여 지정 
한 pid 에 해당하는 프로쎄스서술자를 찾아 policy 마당값을 반환한다. 

sched_setscheduler () 체 계 호출은 pid 변수로 지정 한 프로쎄 스의 순서 짜기 방책 과 
이와 관련한 인자를 설정한다. pid 가 0 이면 이것을 호출한 프로쎄스의 순서짜기프로그 
람인자를 설정한다. 

해당 봉사루린인 sys _ sched _ setscheduler () 함수는 policy 변수로 지정한 순서짜기 
방책과 param -> sclied _ priority 변수로 지정한 새로운 정적우선순위가 정확한 값인가를 
검사한다. 또한 프로쎄스에 CAP _ SYS _ NICE 특질이 있는지 또는 소유자가 관리자권한 
을 소유하고있는지 검사한다. 모든것이 정상이라면 다음 코드를 실행한다. 
p->policy = policy ； 

p->rt_priority = param->sched_priority : 
if (task_on_runqueue (p) ) 
move_first_runqueue (p) : 
current->need_resched = 1 ； 

4 sched_getparam() 과 sched_setparam() 체계호출 
sched_getparam() 체 계 호출은 pid 에 해 당하는 프로쎄 스의 순서짜기 인자를 얻 는다. 
pid 가 0 이면 current 프로쎄스의 순서짜기인자를 얻는다. 이것을 처 리하는 

sys_sched_getparam() 봉사루린은 이미 예상하고있겠지만 pid 와 련관된 프로쎄스서술 
자의 지적자를 찾아서 프로쎄스서술자내의 rt_priority 마당을 sched_param 변수에 저장 
한다. 

그러고나서 copy_to_user() 를 호출하여 param 변수로 지정한 프로쎄스주소공간에 
있는 주소로 이것을 복사한다. sched_setparam() 체계호출은 sched_setscheduler() 와 
비숫하지만 이 체계호출은 policy 마당값을 설정하지 않는다는 차이가 있다. 이것을 처 
리하는 sys_sched_se 仕) aramO 봉사루린은 sys_sched_setscheduler() 와 거의 똑같지 
만 이것을 적용하는 프로쎄스의 순서짜기방책은 절대 바뀌지 않는다. 

A sched_yield 0 체계 호출 

sched _ yield () 체계 호출을 사용하면 프로쎄스를 보류상태로 만들지 않고 자발적으로 
CPU 를 반납할수 있다. 프로쎄 스는 여전히 TASK_RUNNING 상태로 남지만 순서짜기 
프로그람은 이 프로쎄스를 실행대기렬목록의 맨 끝에 넣어 동적우선순위가 갈은 다른 프 
로쎄스에 실행 할 기회 를 준다. 이 체 계 호출은 SCHED _ FIF ◦프로쎄스가 주로 사용한다. 

이 체계호출을 처리하는 sys_sclied_yieldO 봉사루린은 먼저 체계에 이 체계호출을 
실행 하는 프로쎄스와 교환기 (swapper) 핵심부스레드를 제외 한 다른 실행 가능한 프로쎄 
스가 있는가를 검사한다. 그런 프로쎄스가 없다면 처리기를 놓아주더라도 이것을 사용할 
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프로쎄스가 없기때문에 sched _ yield () 는 아무일도 하지 않고 완료한다. 만일 있다면 다 
음 문장을 실행한다. 

if ( current->policy == SCHED _ OTHER ) 
current->policy != SCHED — YIELD ; 
current -> need_resched = 1； 
spin _ lock_irq (& runqueue _ lock ) : 
move _ last_runqueue ( current ) : 
spin _ unlock_irq ( & runqueue _ lock ) : 

그 결과 sys _ sched _ yield () 봉사루린을 빠져나갈 때 scheduleO 함수가 호출되고 
(《새치기와 례외로부터 복귀》를 참고) 이것은 대체로 현재프로쎄스를 다른 프로쎄스로 
교체 한다. 

4 - sched _ get _ priority_min () 과 sched _ get _ priority_max () 체계 호출 
sched _ get _ priority _ min () 과 sched _ get _ priority _ max () 체계 호출은 각각 polcy 
변수로 지 정 한 순서 짜기 방책 에 서 사용할수 있는 실시간 정적 우선순위의 최소，최대 값을 
반환한다. 

sys _ sched _ get _ priority _ min 봉사루린은 current 가 실시간프로쎄스이면 1，그렇지 
않으면 0을 반환한다. 

sys _ sched _ get _ priority _ max () 봉사루린은 current 가 실시간프로쎄스면 가장 높 
은 우선순위인 99를，그렇 지 않으면 0을 반환한다. 

4 sched _ rr _ get_interval () 체계 호출 

sched _ rr _ get_interval 0 체 계 호출은 pid 변수로 지정 한 실시 간프로쎄 스의 Round 
Robin 시간정량을 사용자방식의 주소공간에 있는 구조체에 기록한다. pid 가 0이면 이 
체 계 호출은 현재 프로쎄 스의 시 간정 량을 기 록한다. 

해당 . sched _ rr _ get _ interval () 봉사루린은 마찬가지로 find _ process _ by _ pid () 를 
호출하여 pid 에 해당하는 프로쎄스서술자를 가져온다. 그러고 선택한 프로쎄스서술자의 
nice 마당에 들어있는 tick 의 수를 초와 나노초 ( nanosecond ) 로 변환하여 이 값을 사용 
자방식에 있는 구조체로 복사한다. 


제 5절. 프로쎄스틍신 

이 절에서는 사용자방식프로쎄스가 서로 동기화하고 자료를 교환하는 방법을 설명한 
다. 프로쎄스는 프로쎄스호상간의 동기화와 통신을 위해서 핵심부에 의존해야만 한다. 

앞의 《 Linux 파일잠그기》에서 살펴본것처럼 파일을 생성하고 이 파일에 열쇠를 
걸고 해제하는 적절한 VFS 체계호출을 하여 사용자방식프로쎄스사이의 동기화를 이룰수 
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있다. 이와 비슷한 방법으로 프로쎄스는 열쇠로 보호한 림시파일울 사용하여 자료를 공 
유할수 있지만 디스크파일체계에 접근해야 하므로 비용이 많이 든다. 이런 리유로 모든 
Unix 핵심부는 파일체계를 리용하지 않고 프로쎄스통신을 지원하는 체계호출을 포함한 
다. 더 나아가서 핵심부에 동기화를 요청하는 프로쎄스의 요구사항을 만족하기 위해 여 
러 래퍼함수를 적절한 서고에 추가하였다. 

응용프로그람 개발자들의 다양한 요청으로 하여 다양한 통신기구가 필요하다. 다음 
은 Unix 체계 가 프로쎄스간 통신을 위해 제공하는 기본적 인 기구이 다. 

4 - 관 ( PIPE ) 과 FIFO (이름붙은 관 (named pipe)) 

프로쎄스간에 생산자/소비자 관계의 호상작용을 실현하는데 가장 적당하다. 한 프 
로쎄스는 관에 자료를 넣고 다른 프로쎄스는 관에서 자료를 꺼 낸다. 

4 신호기 (semaphore) 

이 름에서 알수 있는것 처 럼 신호기 에서 설명 할 핵 심부신호기의 사용자방식판본이다. 
♦ 통보문 (message) 

미리 정의된 통보문대기렬에 통보문을 쓰고 읽음으로써 통보문(작은 자료블 로크) 
을 교환한다. 

4 공유기 억 기 령 역 (Shared memory region) 

공유된 기억기블로크를 리용하여 프로쎄스간정보를 교환할수 있게 한다. 많은 량 
의 자료를 공유해 야 하는 경 우 가장 효률적 인 통신방식이 다. 

A 소케 트 (Socket) 

망을 통해 서로 다른 콤퓨터사이에 자료를 교환할수 있게 해춘다. 소케트는 같은 
주콤퓨터에 있는 프로쎄스간 통신도구로 리용할수도 있다. 례를 들어 XWindow 체계 
는 소케트를 사용하여 의뢰기프로그람과 X 봉사기사이에서 자료를 교환한다. 

1. 관 

관은 모든 Unix 에서 제공하는 프로쎄스사이의 통신기구이 다. 관은 프로쎄스사이 에 
서 한 방향으로 흘러가는 자료흐름이 다. 즉 한 프로쎄스가 관에 기록한 자료를 핵심부가 
다른 프로쎄스로 전달하며 다른 프로쎄스는 해 당 자료를 읽을수 있다. 

Unix 의 명령벨에서 |연산자를 리용하여 관을 생성할수 있다. 례를 들어 다음 명 령 
은 관으로 련결된 두 프로쎄스를 생성하도록 월에 명령한다. 

$ Is | more 

Is 프로그람을 실행 하는 첫번째 프로쎄스는 표준출력을 관으로 보내고 more 프로그람 
을 실행하는 두번째 프로쎄스는 관에서 입 력값을 읽는다. 

다음과 같이 두 명령을 실행하여 갈은 결과를 얻을수도 있다. 

$ Is > temp 
$ more < temp 
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첫번째 명령은 Is 의 출력을 일반파일로 보낸다. 그 다음 두번째 명령은 more 를 사 
용하여 갈은 파일에서 입력값을 읽어들인다. 물론 림시파일대신 관을 사용하면 다음과 
갈은 우점 이 있다. 

> 월문장이 더 짧고 간단하다. 

> 림시 파일 을 생성 하고 삭제 할 필요가 없 다. 

1) 관사용하기 

관은 대응하는 영상이 탑재된 파일체계에 없는 열린 파일로 생각할수 있다. 프로쎄 
스는 pipeO 체계호출을 사용하여 새로운 관을 생성한다. 이 체계호출은 파일서술자 두 
개를 반환한다. 프로쎄스는 이 서술자를 forkO 체계호출을 사용하여 자식프로쎄스에 넘 
겨서 두 프로쎄스사이에 관을 공유할수 있다. 프로쎄스는 첫번째 파일서술자에 대해 
readO 체계호출을 하여 관에서 읽을수 있다. 이와 비슷하게 두번째 파일서술자에 대해 
writeO 체계호출을 하여 관에 기록할수 있다. 

POSIX 는 단방향(반이중)관만을 정의하기때문에 pipeO 체계호출이 파일서술자 두개 
를 반환하더 라도 각 프로쎄스는 서술자를 사용하기 전에 다른 서술자를 닫아야 한다. 정 
방향 자료흐름이 필요하다면 프로쎄스는 pipeO 체계호출을 두번 호출하여 서로 다른 관 
두개를 리용해야 한다. 

System V Release 4와 같은 Unix 체 계는 정 방향(전이중)관을 지 원한다. 정 방향관 
에서는 두 서술자가 동시에 읽고 쓸수 있기때문에 정방향통로가 존재한다. 

Linux 는 또 다른 접근방법을 채택하였다. 매 관의 파일서술자는 여전히 단방향이 
지만 한 서술자를 사용하기 전에 다른 서술자를 닫을 필요가 없다. 

앞에서 본 실례에서 Is | more 문장을 해석하면 다음과 같은 동작을 실행한다. 

1. pipeO 체계호출을 한다. 여기서는 PipeO 가 파일서술자 3( 읽기통로)과 4( 쓰기 
통로)를 반환한다고 가정 한다. 

2. forkO 체계호출을 두번 한다. 

3. closeO 체계호출을 두번 하여 파일서술자 3과 4를 해제한다. 

Is 프로그람을 실행 하는 첫번째 자식프로쎄스는 다음 연산을 수행 한다. 

1. dup 2(4， l ) 를 호출하여 파일서술자 4를 파일서술자 1로 복사한다. 이제부터 
파일서 술자 1은 관의 쓰기통로를 가리킨다. 

2. closeO 체계호출을 두번 하여 파일서술자 3과 4를 해제한다. 

3. execveO 체계 호출을 하여 Is 프로그람을 실행 한다. 이 프로그람은 출력을 파일 
서술자 1( 표준출력)에 기록한다. 즉 이 프로그람은 관에 기록한다. 

more 프로그람을 실행 하는 두번째 자식프로쎄스는 다음 연산을 수행한다. 

1. dup 2(3, 0) 를 호출하여 파일서술자 3을 파일서술자 0으로 복사한다. 이제 파 
일서 술자 0은 관의 읽 기통로를 가리킨다. 
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2. closeO 체계호출을 두번 하여 파일서술자 3과 4를 해제한다. 

3. execveO 체계호출을 하여 more 를 실행한다. 기본적으로 이 프로그람은 파일 
서 술자 0( 표준입 력)에서 입 력을 읽어 들인다. 즉 관에서 읽어들인다. 

이 실례에서는 두 프로쎄스가 관을 리용한다. 그러나 관실현에 따르면 여러 프로쎄 
스에서 한 관을 리용할수 있다. 물론 두 프로쎄스 이상이 동일한 관에서 읽거나 
기 록한다면 파일 잠그기 를 리 용하거 나 IPC 신호기 를 리 용하여 관접 근을 암시 적 으 
로 동기 화해 야 한다. 

대부분의 Unix 체계에서 pipeO 체계호출외에도 popenO 과 pcloseO 라는 두 래퍼 
함수를 제공한다. 이 함수들은 관을 리용할 때 발생하는 모든 일들을 처리한다. 
popenO 함수를 리용하여 관을 생성하면 C 서고에 포함된 고수준 입출력함수 
( fprintf () , fscanf () 등)로 관을 리 용할수 있 다. 

Linux 에서는 C 서고에 popenO 과 pcloseO 함수를 포함한다. popenO 함수는 변수 
두개를 받아들인다. 첫번째 변수인 filename 은 실행과일의 경로이름이며 두번째 변수 
type 은 자료의 전송방향을 지 정하는 문자렬이 다. 이 함수는 FILE 구조체 의 지 적 자를 반 
환한다. popenO 함수는 다음 연산을 수행한다. 

1. pipeO 체계호출을 사용하여 새로운 관을 생성한다. 

2. 새 로운 프로쎄스를 생성 ( fork ) 한 후 다음과 같은 연산을 수행 한다. 

a . type 가 r 이면 관의 쓰기통로와 관련된 파일서술자를 파일서술자 1( 표준출력)로 
복제한다. 이와 달리 type 가 w 이면 관의 읽기통로와 관련된 파일서술자를 파일서술자 
0( 표준입력)으로 복제한다. 

b . pipeO 가 반환한 파일서술자를 닫는다. 

c . execveO 체계호출을 하여 filename 변수에 지적한 실행파일을 실행한다. 

3. type 가 r 이면 관의 쓰기통로에 관련된 파일서술자를 닫는다. 이와 달리 type 가 
w 이면 관의 읽기통로와 관련된 파일서술자를 닫는다. 

4. 계 속 열 려있는 관에 대 한 파일서 술자를 가러 키는 파일지 적 자 FILE 의 주소를 반 
환한다. 

popenO 함수를 호출하면 부모와 자식프로쎄스가 관을 통해 정보를 교환할수 있다. 
부모프로쎄스는 popenO 함수가 반환한 FILE 지적자를 리용하여 자료를 읽거나 ( type 가 
r 일 경우) 쓸 ( type 가 w 일 경우)수 있다. 자식프로쎄스가 실행한 프로그람은 표준출력 
으로 자료를 쓰거나 표준입력에서 자료를 읽을수 있다. 

popenO 에서 반환한 파일지적자를 변수로 받는 pcloseO 함수는 wait 4() 체계호출 
을 하고 popenO 이 생성한 프로쎄스가 완료할 때까지 기다린다. 


2) 관자료구조 

관의 자료구조를 살펴보러면 다시 체계호출수준에서 생각해야 한다. 관이 생성되면 
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프로쎄스는 readO 와 writeO 와 같은 VFS 체계호출을 사용하여 관에 접근할수 있다. 
따라서 각 관에 대해서 핵심부는 i 마디객체 하나와 파일객체 두개를 생성한다. 파일객체 
는 각각 읽기와 쓰기에 사용된다. 프로쎄스가 관에서 읽거나 쓰러면 적당한 파일서술자 
를 사용해야 한다. i 마디객체가 관을 나타내면 i _ pipe 령역은 표 3-12 에서 보여주는것처 
럼 관의 inode _ info 구조체를 가리 킨다. 


■ 3-12. __ pipe _ inode_info 구조체 


형 

마당 

설명 

struct 

wait queue * 

Wait 

관/ FIF ◦대 기 렬 

char * 

Base 

핵심부완충기 주소 

unsigned int 

Len 

한 프로쎄스가 관에 쓰고 다른 프로쎄스 

가 아직 읽지 않는 바이트수 

unsigned int 

Start 

핵 심부완충기안에서의 읽기위 치 

unsigned int 

readers 

읽기프로쎄스를 위한 기발 또는 읽기프로 

쎄스의 수 

unsigned int 

writers 

쓰기프로쎄스를 위한 기발 
또는 쓰기프로쎄스수 

unsigned int 

waiting readers 

대기렬에서 잠들어있는 읽기프로쎄스수 

unsigned int 

waiting writers 

대기렬에서 잠들어있는 쓰기프로쎄스수 

unsigned int 

〔counter 

FIFO 를 읽을 때 사용하는 프로쎄스를 

대기할 때 사용 

unsigned int 

w_counter 

FIFO 를 쓸 때 사용하는 프로쎄스를 대 

기할 때 사용 


i 마디 하나와 파일객체 두개외에도 매 관은 자신만의 관완충기 즉 관에 쓴 다음 아 
직 읽지 않은 자료가 있는 폐지틀 하나를 가진다. 이 페지틀의 주소는 pipe _ inode_info 
구조체의 base 마당에 저장된다. 구조체의 len 마당에는 관완충기에 쓴 아직 읽지 않은 
다음 바이트의 수가 저 장된다. len 마당에 저 장되는 이 수를《 현재 관크기》라고 부른다. 

관완충기 는 원형이 며 읽 기 프로쎄 스나 쓰기 프로쎄 스 모두 접 근할수 있 다. 그러 므로 
핵심부는 반드시 완충기에서 다음 두 편위의 현재 위치를 유지해야 한다. 

> 다음에 읽을 바이트의 편위. 이 편위는 pipe _ inode _ info 구조체의 state 마당에 
저장된다. 

> 다음에 쓰기 위 한 바이 트의 편위 . 이 편위 는 start 와 관크기 (구조체 의 len 마당) 
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에서 구할수 있다. 

핵심부는 관의 자료구조체에서 경쟁조건 (race condition ) 을 피하기 위해 inode 객 
체에 있는 i _ sem 신호기를 사용하여 관완충기에 대한 동시접근을 방지한다. 

3) 특수파일체계 pipefs 

관은 VFS 객체의 집합으로 실현하며 대응하는 디스크영상이 없다. Linux 2. 6핵심 
부에서는 이러한 동작을 처리하기 위해 VFS 객체를 pipefs 라는 특수파일체계에 실현하 
였다. pipefs 파일체계는 체계등록부에 탑재위치가 없으며 사용자는 이 파일체계를 확인 
할수 없다. 그러나 pipefs 로 인해 관은 VFS 계층에 완전히 통합되였으며 핵심부는 사용 
자가 다시 인식 할수 있는 이름붙은 관 (named pipe ) 이 나 FIFO 와 같은 방법으로 다룰수 
있게 되였다. (《 FIFO 》 참고) 

일반적으로 핵심부초기화시 실행 하는 init _ pipe_fs () 함수는 pipefs 파일체계를 등록 
한 후 탑재 한다. (《뿌리 파일체 계 탑재》를 참고) 
struct file _ system_type pipe _ fs _ type ; 
root _ fs _ type . name = " pipefs "； 
root _ fs _ type _ read_super = pipef s _ read _ super : 
root_f s_ty pe_f s_f 1 ags = FS _ NOMOUNT : , 
pipe_mnt = do _ kern_mount (" pipefs ", 0, “ pipefs ", NULL ) : 
pipefs 의 뿌리등록부를 나타내는 탑재된 파일체계 객체는 pipe _ mnt 변수에 저장된다. 

4) 관의 생성과 제거 

pipe () 체계호출의 봉사루린은 sys _ pipe () 함수인데 이 함수는 do _ pipe () 함수를 호 
출한다. do _ pipe () 는 새로운 관을 생성하기 위해 다음연산을 수행한다. 

1. get _ pipe _ inode () 함수를 호출한다. 이 함수는 pipefs 파일체계에서 관에 대한 i 
마디객체를 할당하고 초기화한다. 이 함수는 다음동작을 실행한다. 

a . pipe _ inode _ in : fo 자료구조를 할당하고 그 주소를 inode 의 Ipipe 마당에 저장 
한다. 

b . 관완충기 를 위 한 폐지 틀을 할당하고 그 시 작주소를 pipe _ mode _ info 구조체 의 
base 마당에 저장한다. 

c . pipe _ inode _ info 구조체의 start , len , waiting _ readers , waiting_write 
마당을 0 으로 초기화한다. 

d . pipe _ inode _ info 구조체의 r _ counter 와 w_countcr 마당을 1 로 초기화한다. 

2. pipe _ inode _ info 구조체의 readers 와 writers 마당을 1 로 설정 한다. 

3. 관의 읽기통로에 대한 파일객체와 파일서술자를 할당한 다음 파일객체의 f_flag 
마당을 CLRDONLY 로 설정 한다. 그러고 f _ op 마당에 read _ pipe _ fops 표의 주소를 저 장 
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한다. 

4. 관의 쓰기통로에 대한 파일객체와 파일서술자에 할당한 다음 파일객체의 flag 마 
당을 0_ WR 0 NLY 로 설정한다. 그리고 f_op 마당에 write _ pipe_fops 표의 주소를 저장 
한다. 

5. 등록부입구점객체를 할당하고 이것을 리용하여 i 마디객체와 파일객체 두개를 련 
결한다. (《공통파일모형》을 참고) 그리고 새로운 i 마디를 pipefs 파일체계에 추가한다. 

6. 파일서술자 두개를 사용자방식프로쎄스로 반환한다. 

pipeO 체계호출을 한 프로쎄스는 새로운 관에 읽고쓰기 위해 접근할수 있는 유일한 프 
로쎄스이다. 관에 읽기와 쓰기 프로쎄스가 있음을 나타내기 위해 pipe _ inode_info 자료구 
조체의 readers 와 writers 마당을 1로 초기화한다. 일반적으로 어떤 프로쎄스가 관의 파일 
객체를 열고있을 때에만 파일객체에 대응하는 마당이 1로 설정된다. 대응하는 파일객체를 
해제하면 어떤 프로쎄스도 더는 접근하지 않기때문에 마당을 0으로 설정한다. 

새로운 프로쎄 스를 생성 해서 자식프로쎄 스를 생성 하는것은 readers 마당값과 
writers 마당값을 증가시키지 않으므로 1보다 커지지 않는다. 그러나 부모프로쎄스에서 
계속 사용하는 모든 파일객체의 사용계수기는 증가한다. (《 cloneO , fork (), vforkO 
체계호출》를 참고) 그러므로 부모프로쎄스가 죽더라도 객체는 해제되지 않으며 자식프 
로쎄스에서 리용하기 위해 관은 열린 상태가 지속된다. 

프로쎄스가 관을 가리키는 과일서술자에 대해 closeO 체계호출을 할 때마다 핵심부 
는 대응하는 파일객체에 打) ut () 함수를 실행한다. 이 함수는 실행할 때마다 사용계수기 
를 감소시 킨다. 계수기가 0이 되면 함수는 과일연산의 release 메쏘드를 호출한다. 

release 메 쏘드는 파일 이 읽 기 통로와 쓰기 통로중 어 느 쪽에 관련되 여있는가에 따라 
pipe _ read _ release () 나 pipe _ write _ release () 중 하나로 실현한다. 

이 두 함수는 pipe _ release () 를 호출하는데 이 함수는 pipe _ inode _ info 구조체의 
readers 또는 writers 마당을 0으로 설정한다. 또한 이 함수는 readers 와 writers 마당 
이 둘 다 0이면 관완충기를 포함하는 패지틀을 해제한다. 그렇지 않다면 관상태의 변화 
를 알수 있도록 관의 대기렬에 잠들어있는 프로쎄스를 활성화한다. 

5) 관에서 읽기 

관에서 자료를 엄으려는 프로쎄스는 관의 읽기통로와 관련한 서술자를 파일서술자로 
지정하여 readO 체계호출을 실행한다. 《 readO 와 writeO 체계호출》에서 설명한것처 
럼 핵심부는 적절한 파일객체에 대응하는 파일연산표에서 찾은 read 메쏘드를 호출한다. 
관의 경우 read _ pipe _ fops 표의 read 메쏘드입구점은 pipe _ read () 함수를 가리킨다. 

pipe _ read () 함수는 매우 복잡한데 POSIX 표준에서 관의 read 연산에 대해 여러가 
지 요구사항을 명 시 하고있기 때 문이 다. 

표 3-13 은 크기 (관완충기안에 있는 아직 읽 지 않은 바이 트수) 가 p 인 관에서 n 바이 
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트를 요청하는 readO 체계호출의 예상동작을 보여준다. 


M 3-13. 관에서 n 바이트 읽기 



하나이상의 쓰기프로쎄스 


관 크기 P 

차단된 읽기 

차단되지 
않은 읽기 

쓰기 프로쎄 스 


잠들어있는 쓰기 
프로쎄스 있음 

잠들어있는 쓰기 
프로쎄스 없음 

없음 

P = 0 

n 바이트를 복사하 
고 n 을 반환한다. 

관완충기가 비여 
있으면 자료를 기 
다린다. 

자료를 기 다린 후 복 
사하고 관크기를 반 
환한다. 

-EAGAIN 을 
반환한다. 

0을 반환한다. 

0< p <n 

p 바이트를 복사하고 p 바이트를 반환한다. 관에는 0 
바이트가 남아있다. 

p >= n 

n 바이트를 복사하고 n 바이트를 반환한다. 
남아있 다. 

관완충기 에 서 는 p - n 바이 트가 


체계 호출은 다음 두 경우에 현재프로쎄스를 차단한다. 

> system 호출을 호출했을 때 관완충기 가 비 여있다. 

> 요청 한 만큼의 바이 트가 관완충기 에 들어있지 않으며 이 전호출에 서 쓰기 프로쎄 
스가 완충기 에 빈 공간이 생길 때 까지 잠든 상태 로 들어갔다. 

차단되지 않는 읽기연산도 있다. 이 경우 모든 가능한 바이트(리용가능한 바이트가 
없을수도 있다.)를 사용자주소공간으로 복사하고 즉시 완료한다. 

readO 체 계호출은 관이 비 여있고 관의 쓰기통로와 관련한 파일객 체 를 리용중인 프 
로쎄스가 없을 때에만 0을 반환한다. 

함수는 다음과 갈은 연산을 수행한다. 

1. inode 의 i _ sem 신호기를 획득한다. 

2. pipe _ inode _ info 구조체의 len 마당에 있는 관의 크기가 0인가를 검사한다. 관크 
기가 0이면 함수가 반드시 즉시 되돌이해야 하는지 또는 다른 프로쎄스가 관에 자료를 
기 록하는 동안 기 다리 기 위 해 차단되 여 야 하는가를 결정 한다.(표 3-13 참고) 입 출력연 
산의 류형 (차단이 나 비 차단)은 파일객체의 f _ flags 마당에 0_ N 0 NBLC ) CK 기 발을 리용하 
여 지 정할수 있 다. 만약 현재 프로쎄 스가 차단되 여 야 한다면 함수는 다음동작을 수행한다. 

a . pipe _ inode _ info 구조체의 waiting _ readers 마당에 1을 더 한다. 

b . 관의 대 기 렬 ( pipe _ inode _ info 구조체 의 wait 마당) 에 current 값을 더 한다. 

c . i 마디 신호기를 해제한다. 

d . 프로쎄스상태를 TASK _ INTERRUPTIBLE 로 설정하고 schedule () 함수를 
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호출한다. 

e . 깨여나면 대기 렬에서 current 값을 제거하고 i_sem 신호기를 다시 얻은 후 

waiting_readers 마당을 감소시키고 단계 2로 간다. 

3. 관완충기에서 요청한 바이트수(또는 완충기크기가 너무 작다면 리용가능한 바이 
트수)를 사용자주소공간에 복사한다. 

4. pipe _ inode_info 구조체의 start 와 len 마당을 갱신한다. 

5. wake _ up_interruptible 함수를 호출하여 관의 대기 렬에 잠들어있는 모든 프로 
쎄스를 깨운다. 

6. 요청한만큼의 비이트를 복사하지 못했으며 현재 잠든 (wai 吐 ng_writers 마당이 0보 
다 큰) 쓰기프로쎄스가 하나이상 있고 읽기 연산이 차단이면 다시 단계 2로 되돌아간다. 

7. i 마디의 i_sem 신호기를 해제한다. 

8. 복사한 바이트수를 사용자주소공간으로 반환한다. 

6) 관에 쓰기 

관에 자료를 넣으려는 프로쎄스는 관의 쓰기통로와 관련한 파일서술자를 지정하여 
writeO 함수를 호출한다. 핵심부는 파일객체의 쓰기메쏘드를 호출하여 이 동작을 수행한다. 
write _ pipe_fops 표의 대응하는 입구점은 pipe _ write () 함수를 가리 킨다. 

표 3-13 에서는 완충기 안에 u 만큼 사용하지 않는 바이트를 포함한 관에 n 바이트를 쓰 
려고 요청하는 writeO 체계호출에 대해 POSIX 표준에서 지정하는 동작을 보여준다. 특히 
POSIX 표준에서는 작은 수의 바이트에 대한 쓰기연산은 반드시 한번에 실행해야 한다고 명 
시하고있다. 좀 더 자세히 말하자면 프로쎄스 두개 이상이 동시에 관에 쓰러고 할 때 크기 
가 4096 B (관완충기 크기)이하인 쓰기연산은 다른 프로쎄스가 동일한 관에 대해 쓰기연산 
을 실행 하는것과 뒤섞이지 않고 완료해 야 한다. 그러 나 4096 B 이상인 쓰기 연산은 한번에 
실행되지 못할수도 있으며 호출하는 프로쎄스를 잠든 상태로 만들수도 있다. 


표 3-14. _ 관에 n 바이 s 쓰기 


리 용가능한 
완중기공간 U 

최소한 하나이상의 읽기프로쎄스 

읽 기 프로쎄 스 

차단되는 쓰기 

차단되지 않는 쓰기 

없음 

u < n <= 4096 

n > 4096 

n-u 바이트가 여유있을 
때까지 대기한 후 n 바 
이트를 복사하고 n 을 
반환한다. 

n 바이트(필요하다면 기 
다림)를 복사하고 n 을 
반환한다. 

-EAGAIN 을 반환한다. 
u >0 이면 u 바이트 를 복 
사한 후 u 바이트를 반환 
한다. 그렇지 않으면 
EAGAIN 을 반환한다. 

SIGPIPE 신호 
를낸후 

EPIPE 를 반환 
한다. 
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n 바이트를 복사하고 n 바이트를 반환한다. 


관에 대한 쓰기연산은 관에 읽기프로쎄스가 없으면(즉 관의 inode 객체의 readers 
마당이 0 값인 경우) 반드시 실패한다. 이 경우 핵심부는 쓰기프로쎄스에 SIGPIPE 신호 
를 보내고 -EPIPE 오유코드와 함께 writeO 체계호출을 완료한다. 이 오유코드는 관깨 
짐 (Broken pipe) 통보문이 다. 

pipe _ write () 함수는 다음 동작을 수행한다. 

1. i 마디의 i_sem 신호기를 얻는다. 

2. 관에 읽기프로쎄스가 최소한 하나이상 있는가를 검사한다. 만약 없다면 현재프로 
쎄스에 SIGPIPE 신호를 보내고 i 마디신호기를 해제한 후 -EPIPE 오유코드를 반환한다. 

3. 기록할 바이트수가 관의 완충기크기보다 작은가를 검사한다. 

a. 만약 완충기크기보다 작다면 쓰기연산은 원자성을 만족해야 한다 그러므로 
완충기크기가 기록하려는 모든 바이트를 저장할수 있을만큼 충분한가를 검사한다. 

b. 기록할 바이트수가 완충기크기보다 크다면 여유공간이 약간만 있더라도 연 
산을 바로 시작한다. 그러므로 함수는 여유바이트가 최소한 1 B 인가를 검사한다. 

4. 만약 완충기 에 충분한 공간이 없고 쓰기 연산이 비차단이라면 i 마디 신호기 를 해제 
하고 -EAGAIN 오유코드를 반환한다. 

5. 완충기 에 충분한 공간이 없고 쓰기연산이 차단이라면 다음 동작을 수행한다. 

a. pipe_inode_info 구조체의 waiting_writer 마당에 1 을 더 한다. 

b. 관 (pipe_inode_info 구조체의 wait 마당)의 대기렬에 current 를 추가한다. 

c. i 마디 신호기를 해제한다. 

d. 프로쎄스상태를 TASKjNTERRUPTIBLE 로 설정하고 scheduleO 를 호출한다. 

e. 프로쎄스가 깨여나면 대기렬에서 current 를 제거하고 i 마디신호기를 다시 획득 
하고 waiting_writers 마당값을 감소시킨다. 그리고 단계 5 로 되돌아간다. 

6. 이제 관완충기는 요청한 바이트수(쓰기연산에 원자성이 있어야 하는 경우)를 충 
분히 확보했거나 최소한 1바이트를 확보하였다. 이 쓰기프로쎄스가 i 마디신호기를 소유 
하고있기 때 문에 다른 쓰기 프로쎄 스가 여 유공간을 확보할수 없 다. 요청한 바이 트수(또는 
관 크기가 너무 작다면 여유 바이트수)를 사용자주소공간에서 관완충기로 복사한다. 

7. 관의 대기렬에 있는 잠들어있는 모든 프로쎄스를 깨운다. 

8. 만약 쓰기연산이 차단이 고 관완충기 에 요청 한 모든 바이 트수를 기 록하지 못하였 
다면 5 단계로 되돌아간다. 이러한 경우는 쓰기연산에 원자성이 없을 경우에만 일어난다. 
현재프로쎄스는 관완충기에 한 바이트라도 여유공간이 생길 때까지 차단된 상태로 남아 
있게 된다. 

9. i 마디 신호기 를 해 제한다. 
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10. 관의 완충기에 기록한 바이트수를 반환한다. 

2. FIFO 

관은 단순하고 유연하며 효률적인 통신기구이다. 그렇지만 이미 존재하는 관을 열수 
없다는 큰 부족점이 있다. 이 부족점때문에 공동조상프로쎄스가 생성한 관이 없다면 임 
의의 두 프로쎄스가 동일한 관을 공유할수 없다. 

이 부족점은 많은 응용프로그람에 영향을 미친다. 례를 들어 자료기지엔진봉사기에 
서 봉사기가 질문을 요청하는 의뢰기프로쎄스를 련속적으로 받고 자료기지검색결과를 의 
퇴기에 되돌려주는 경우를 생각해보자. 

봉사기와 각 의뢰기의 호상작용은 관을 리용하여 처리할수 있다. 그러나 사용자가 
명 령월을 리 용하여 자료기지 에 질문하기때 문에 의뢰기프로쎄스는 사용자의 명 령월에서 
생성된다. 그러므로 봉사기와 의뢰기프로쎄스는 관을 쉽게 공유할수 없다. 

Unix 체계는 이러한 제한을 해결하기 위해 이름붙은 관 (named pipe ) 또는 FIFO 
라는 특별한 파일류형을 도입하였다. FIFO 는 관과 거의 비슷하다. FIFO 는 파일체계 
에서 디스크블로크를 소유하지 않으며 열린 FIF ◦는 프로쎄스 두개이상이 자료를 교환 
하기 위해 핵 심 부완충기 를 림 시 저 장공간으로 사용한다. 

디스크 i 마디 ( inode ) 로 하여 FIFO 파일명은 체 계의 등록부나무에 포함되여있으므로 
어떠한 프로쎄스도 FIFO 에 접근할수 있다. 다시 자료기지실례를 보자. 자료기지봉사기 
와 의뢰기는 관대신 FIFO 를 리용하여 서로간의 통신을 간단히 시작할수 있다. 시작할 
때 봉사기는 의뢰기프로그람의 요청을 처리하기 위한 FIFO 를 생성한다. 각각의 의뢰기 
프로그람은 봉사기 와 련결 이 성 립되기전에 봉사기프로그람이 의뢰기프로그람의 질문결과 
를 기록할수 있는 다른 FIFO 를 생성하며 생성한 FIFO 이 름을 첫 요청 에 포함한다. 

Linux 2. 6핵심부에서 FIF ◦와 관은 거의 동일 하며 같은 pipe _ inode _ info 구조체를 
리용한다. 이러한 리유때문에 FIF ◦의 읽기와 쓰기 파일연산은 앞서 《관에서 읽기》와 
《관에 쓰기》에서 언급한 동일한 pipe _ read () 와 pipe _ write () 함수로 실현되였다. 

하지만 여기에는 두가지 큰 차이점이 있다. 

■ FIFO i 마디는 pipefs 라는 특별한 파일체계 가 아닌 체계등록부나무에 있다. 

■ FIF ◦는 쌍방향통신통로다. 즉 한 FIF ◦를 읽 기 /쓰기방식 으로 열 수 있 다. 

이러한 내용을 좀 더 자세히 설명하기 위해 다음 부분에서는 FIF ◦를 생성하고 여 

는 방법 을 설 명한다. 

프로쎄 스는 mknodO 체계 호출을 하여 FIFO 를 생성한다. FIFO 를 생성할 때 새로 
운 FIFO 경 로이 름과 새 로운 파일 허 가비 트마스크와 S _ IFIFO (0 x 1000) 값을 론리 연산자 
◦묘로 련결한 값을 변수로 전달한다. POSIX 에서는 FIF ◦를 생성하기 위한 mkfifoO 라 
는 특별한 함수를 도입하였다. System V Release 4와 같이 Linux 에서는 이 함수를 
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mknodO 를 호출하는 C 서고함수로 실현하였다. 

FIF ◦가 생성되면 open ()， read (), writeO , closeO 체계호출을 리용하여 FIFO 
에 접근할수 있지만 FIFO i 마디와 파일연산이 변형되였으며 FIFO 가 저장된 파일체계에 
의존적 이지 않기때문에 VFS 는 특수한 방법 으로 FIF ◦를 다룬다. 

POSIX 표준은 FIFO 에서 openO 체계호출의 동작방식을 명시하고있다. 이려한 동 
작은 기 본적 으로 요청 한 류형，입 출력연산의 종류 (차단 또는 비차단) , FIFO 에 접 근하 
는 다른 프로쎄스의 존재여부에 따라 다르다. 

프로쎄스는 읽기나 쓰기용으로 또는 읽기/쓰기용으로 FIFO 를 열수 있다. 파일연산 
은 이러한 3가지 경우에 따라 다른 메쏘드로 설정된다. 

프로쎄 스가 FIFO 를 열 면 VFS 는 장치 파일 에 서 다룬것 과 동일 한 연산을 수행한다. 
열린 FIF ◦에 대응하는 i 마디객체는 파일체계에 의존적인 read_inode 초블로크메쏘드를 
통해 초기화된다. 이 readjnode 메쏘드는 언제나 디스크에 있는 i 마디가 특수한 파일을 
나타내는가를 검사하며 필요하면 init _ special _ inode 0 함수를 호출한다. 그 다음 이 함 
수는 i 마디객체의 i_fop 마당을 def_fifc 匕 fops 표의 주소로 설정한다. 이후에 핵심부는 파 
일객체의 파일연산표를 def _ fifo_fops 로 설정하고 fifo _ open () 으로 실현한 open 메쏘드 
를 실행한다. 

fifo _ open () 함수는 FIF ◦에 있는 자료구조를 초기화한다. 이 함수는 다음 연산을 
수행 한다. 

1. i_sem inode 신호기를 획득한다. 

2. i 마디객체의 i_pipe 마당을 검사한다. 만약 이 마당이 NULL 이면 새로운 
pipe _ inode_info 구조체를 앞서 본《관의 생성과 소멸》의 1단계와 동일하게 할당하고 
초기화한다. 

3. openO 체계호출의 변수에서 지정한 접근방식에 따라 파일객체의 f_op 마당을 적 
절 한 파일 연산표의 주소로 초기 화한다. (표 3-15 참고) 


표 3-15. _ FIFO 의 파일연산 


접근류형 

파일 연산 

읽기메쏘드 

쓰기 메 쏘드 

읽기전용 

read _ fifo_fops 

pipe _ read () 

bad _ pipe _ w () 

쓰기 전용 

write _ fifo_fops 

bad _ pipe _ r () 

pipe _ write () 

읽고쓰기 

rdwr _ fifo_fops 

pipe _ read () 

pipe _ write () 


4. 만약 접근방식 이 읽 기전용이 나 읽기쓰기 로 되 여 있다면 pipe _ inode_info 구조체의 
readers 와 r_counter 마당에 하나씩 더한다. 만약 접근방식이 읽기전용이고 어떠한 읽 
기프로쎄스도 없다면 대기 렬에서 잠들어있는 쓰기프로쎄스를 깨운다. 

5. 만약 접근방식 이 쓰기전용이거 나 읽기쓰기 로 되 여있다면 pipe _ inode_info 구조체 
의 wnter 와 w_counter 마당에 하나씩 더한다. 만약 접근방식이 쓰기전용이고 쓰기프 
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로프로쎄 스가 없다면 대기렬에서 잠들어있는 읽 기프로쎄스를 깨 운다. 

6. 읽기프로쎄스와 쓰기프로쎄스가 모두 없다면 함수를 차단할것인지，오유코드(표 
3-16) 를 반환하여 완료할것인지를 결정한다. 


표 3-16. fifo _ open 0함수의 동작 


접근 류형 

차단하기 

비 차단하기 

읽기전용, 쓰기프로쎄스 
읽기전용，쓰기프로쎄스 없음 
쓰기전용, 읽기 프로쎄스 
쓰기전용, 읽기프로쎄스 없음 
읽기/쓰기 

성공적으로 반환 
쓰기프로쎄스를 기 다림 

성공적으로 반환 
읽기프로쎄스를 기 다림 

성공적으로 반환 

성공적으로 반환 

성공적으로 반환 

성공적으로 반환 
-ENXIO 반환 

성공적으로 반환 


7. i 마디 신호기를 해제한 후 완료하고 0( 성공)을 반환한다 . 

FIFO 의 3가지 파일연산표는 read 와 write 메쏘드의 실현방법에서 차이가 난다. 접 
근류형이 읽기연산을 허용한 경우 읽기메쏘드는 pipe _ read () 함수로 실현하고 그렇지 않 
으면 오유코드를 반환하는 bad _ pipe _ r () 토 실 현 한다. 이 와 비 슷하게 접 근류형 이 쓰기 방 
식를 허용한다면 쓰기메쏘드는 pipe _ write () 함수로 실현하고 그렇지 않으면 오유코드를 
반환하는 bad _ pipe _ w () 로 실현한다. 

3. System V IPC 

IPC 는 프로쎄스간통신 (Interprocess Communica 吐 on ) 의 략자로서 사용자방식 프 
로쎄스가 다음과 갈은 일을 할수 있게 하는 체계호출집합을 나타낸다. 

■ 신호기를 리용하여 다른 프로쎄스와 동기화하기 

■ 다른 프로쎄스로 통보문을 보내거 나 다른 프로쎄스로부터 통보문받기 

. 다른 프로쎄스와 기억기령역 공유하기 

System V IPC 는 Linux 를 포함한 대부분의 Unix 체계에서 사용한다. 

IPC 자료구조는 프로쎄스가 IPC 자원(신호기, 통보문대기렬이나 공유기억기령역 등) 
을 요청할 때마다 동적으로 생성된다. 매 IPC 자원은 지속적으로서 ( persistent ) 프로쎄 
스가 명시적으로 제거하지 않으면 체계를 끌낼 때까지 계속 기억기에 남아있다. IPO } 
원을 생성한 프로쎄스와 조상프로쎄스를 공유하는가와는 관계없이 모든 프로쎄스가 이 
자원을 리용할수 있다. 

프로쎄스가 같은 류형의 IPC 자원을 여러개 요청할수 있으므로 매개의 새로운 자원 
은 32 bit IPC 단어로 구별한다. 이 단어는 체계등록부나무의 파일경로이름과 비슷하다. 
또한 각 IPC 자원은 IPC 식별자를 가진다. 이것은 파일인 경우의 파일서술자와 비숫하다. 
IPC 식 별 자는 핵 심 부가 할당하며 체 계안에 서 유일 하고 IPC 단어 는 프로그람작성 자가 임 
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의로 선택할수 있다. 

두개이상의 프로쎄스가 IPC 자원을 리용하여 통신하려면 자원의 IPC 식별자를 참조 
한다. 

1) IPC 자원리용 

자원은 새로운 자원이 신호기 , 통보문대기렬이나 공유기억기령역 인가에 따라 
semgetO, msggetO 나 shmgetO 함수를 호출함으로써 생성된다. 이러한 함수들의 기 
본목적 은 IPC 단어(첫 번째 변수) 에 대 응하는 IPC 식 별 자를 얻 는것 이 다. 프로쎄 스는 자원 
에 접근하기 위해 이 식별자를 리용한다. 만약 IPC 단어에 대응하는 IPC 자원이 없다면 
새로운 자원이 생성된다. 모든 일이 제대로 되였다면 함수는 정수인 IPC 식별자를 반환 
하고 그렇지 않다면 표 3-17 에서 보여주는 오유코드를 반환한다. 


표 3-17. _ IPC 식별지 ■ 엄는 과 3 에시 바와하는 오유코드 


오유코드 

설 명 

EACCESS 

프로쎄스가 적절한 접근권한이 없다. 

EEXIST 

프로쎄스가 이미 존재하는 열쇠를 러용하여 

IPC 를 생성하려고 시도한다. 

EIDRM 

삭제될 자원으로 표시된다. 

ENOENT 

요청한 열쇠 를 소유한 IPC 자원이 없으며 프로 
쎄스는 생성을 요청하지 않는다. 

ENOMEM 

추가적 인 IPC 자원을 저장할 공간이 없다. 

ENOS PC 

최 대 IPC 자원수제한을 초과한다. 


독립적인 두 프로쎄스가 공통 IPC 자원을 공유하기를 원한다고 가정해보자. 이것은 
다음 두가지 방법 으로 수행할수 있 다. 

• 프로쎄스는 미리 정의되여있는 고정된 IPC 단어를 사용한다. 이것은 매우 간 
단한 경우이며 많은 프로쎄스로 실현한 복잡한 응용프로그람에서도 잘 동작한다. 
그러나 관계없는 다른 프로그람이 동일한 IPC 단어를 결정하는 경우가 있다. 이러 
한 경우라도 IPC 함수는 성공적으로 호출되지만 잘못된 자원의 IPC 식별자를 반환 
할수 있다. 

■ 한 프로쎄스가 IPC 단어로 IPC_PRIVATE 를 지정하여 semgeto, msgetO 
나 shmgetO 함수를 호출한다. 그러면 새로운 IPC 자원이 할당되며 프로쎄스는 응 
용프로그람의 다른 프로쎄스에 자신의 IPC 를 전하거나 다른 프로쎄스를 직접 생성 
할수 있다. 이러한 방법은 다른 응용프로그람에서 우연히 IPC 자원을 리용하는것을 
막아준다. semgetO, msggetO 와 siimgetO 함수의 마지막 변수는 두 기발을 포함 
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할수 있다. 

IPC _ CREAT 는 이미 IPC 자원이 존재하지 않으면 반드시 생성해야 한다. 이와 반 
대 로 IPC _ EXCL 은 이 미 자원이 존재 하고 IPC _ CREAT 기 발이 설정되 여있으면 함수가 
반드시 실패함을 나타낸다. 

심지어 프로쎄스가 IPC _ CREAT 와 IPC _ EXCL 기발을 리용하더라도 다른 프로쎄스 
가 IPC 식별자를 리용하여 자원을 참조할수 있기때문에 IPC 자원에 배타적접근을 보장할 
수 있는 방법은 없다. 

핵심부는 이렇게 잘못된 자원을 참조하는 위험을 최소화하기 위해 IPC 식별자가 여 
유있게 되더라도 재사용하지 않는다. 대신 자원에 할당하는 IPC 식별자는 이전에 동일한 
류형의 자원에 할당된 식별자보다 항상 크다 . (32 bit IPC 식별자가 초과 ( overflow ) 한 
경우는 례외이다.) 매개의 IPC 식별자는 자원류형과 관련된 슬로트사용순서번호 (slot 
usage sequence number ) 와 할당된 자원에 대한 임의의 슬로트색인값 그리고 할당가 
능한 자원의 최대수보다 더 크며 핵심부가 선택한 임의의 수조합으로 계산된다. s 가 슬 
로트사용순서번호를 나타내고 보은 할당가능한 자원의 최대수를 나타내며 i 가 슬로트색 
인값을 나타낸다면 (0<= i < M ) 각 IPC 자원의 ID 는 다음과 같이 계산된다. 

IPC 식별자 = s * M + I 

Linux 2. 6에서는 보의 값은 32768 (IPCMIN 마크로)로 설정되 여있다. 슬로트사용순 
서번호 s 는 0으로 초기화되며 각 자원을 할당할 때마다 하나씩 증가한다. 타가 IPC 자원의 
류형에 따라 미리 정의된 값(仕 ireshold ) 에 도달하게 되면 다시 0부터 시작하게 된다. 

IPC 자원의 모든 류형(신호기，통보문대 기 렬 그러 고 공유기 억 기 령 역 등)은 ipcjds 
자료구조를 가지고있으며 이 자료구조의 마당값을 표 3-18 에 주었다. 


표 3-18. _ ipcjds 자료구조 nig 


형 

마 당 

설 명 

Int 

size 

IPC 자원의 현재 최대값 

Int 

in use 

할당된 IPC 자원의 수 

Int 

max id 

사용중인 슬로트색인의 최대값 

unsigned short 

seq 

다음 할당에 대한 슬로트사용순서번호 

unsigned short 

seq max 

최대슬로트사용순서번호 

struct semaphore 

sem 

ipsjds 자료구조를 보호하는 신호기 

spinlock t 

ary 

IPC 자원서술자를 보호하는 스핀잠그기 

struct ipd_id * 

entries 

IPC 자원서술자의 배렬 


size 마당은 주어진 류형에서 할당가능한 IPC 자원의 최대수를 저장한다. 체계관리자 
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는 각각 /proc/sys/kernel/sem, /proc/sys/kernel/msgmni 그러고 /proc/sys/ 
kernel/shmmni 의 값을 조정 함으로써 매 자원의 size 마당값을 증가시 킬수 있 다. 

entries 마당값은 할당가능한 모든 자원 (size 마당 또한 배럴의 크기이다.)마다 하나 
씩 대응하는 kern_ipc_perm 자료구조의 배럴지적자를 가러킨다. IPC 자원과 대응하는 
kem_ipc_perm 자료구조의 각 마당값을 표 3-18 에 보여준다. uid, gid, cuid 와 cgid 마 
당은 각각 자원을 생성한 생성자의 사용자와 그룹식별자를 저장하고 현재자원의 소유자 
에 대한 사용자와 그룹식별자를 저장한다. mode 비트마스크는 기발 6 개를 포함하며 매 
자원의 소유자, 자원의 그를, 그 외의 사용자들에 대한 읽기와 쓰기 접근권한을 저장한 
다. IPC 접근권한은《접근 권한과 파일방식》에서 설명한 파일접근권한과 비숫하다. 그 
러나 IPC 접근권한에서는 실행허가기발을 사용하지 않는다. 

kern_ipc_pem 자료구조는 key 마당(자원에 대웅하는 IPC 단어를 포함)과 seq 마당 
(자원에 대한 IPC 식별자를 계산하는데 리용하는 슬로트사용순서번호，앞에 있는 수식의 
s 에 해당)도 포함하고있다. 


표 3-19. kern_ipc_perm 구조제의 [[당 


형 

마 당 

설명 

int 

key 

IPC 열쇠 

unsigned int 

uid 

소유자의 사용자 ID 

unsigned int 

gid 

소유자의 그롭 ID 

unsigned int 

cuid 

생성자의 사용자 ID 

unsigned int 

cgid 

생성자의 그를 ID 

unsigned short 

mode 

허가비트 마스크 

unsigned long 

seq 

슬로트사용순서번호 


semctl () , msgctlO 과 shmctlO 함수를 사용하여 IPC 자원을 처리 할수 있 다. 
IPC_SET 명령은 프로쎄스가 ^ c _ perm 자료구조에 있는 허가비트마스크와 소유자의 사 
용자와 그룹식 별 자를 변경할수 있게 한다. IPC_STAT 와 IPC_lNFO 명 령 은 자원에 관 
련한 일부 정보를 얻는다. 마지막으로 IPC_RMID 명령은 IPC 자원을 해제한다. IPO} 
원의 류형에 따라 다른 특수한 명령을 리용할수 있다. 

IPC 자원이 생성되면 프로쎄스는 일부 특수한 함수를 리용하여 자원을 사용할수 있 
다. 프로쎄스는 semopO 함수를 호출함으로써 IPC 신호기를 얻거 나 해제할수 있다. 프로 
쎄스가 IPC 통보문을 보내거나 받으러고 한다면 msgsndO 함수와 msgrcvO 함수를 리용 
한다. 마지막으로 프로쎄스는 shmatO 와 shmdtO 함수를 리용하여 IPC 공유기억기를 자 
신의 주소공간에 붙이거나 땐다. 

2) ipc() 체계호출 

모든 IPC 함수는 적절한 Linux 체계호출을 리용하여 실현해야 한다. 실제로 80x86 
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방식에서는 ipc () 라는 단 하나의 IPC 체계호출만이 있을뿐이다. 프로쎄스가 IPC 함수 례 
를 들어 msggetO 함수를 호출하면 사실은 C 서고에 있는 래퍼함수를 호출하는것이다. 
이 함수는 ipc () 체계함수를 호출하는데 msggetO 의 변수와 MSGGET 명령을 전달한다. 
sys _ ipc () 봉사루린은 명령을 검사하고 요청된 봉사를 실현하는 핵심부함수를 호출한다. 

ipc () 《 다중화장치 ( multiplexer ) 》체계 호출은 동적 모둘에 IPC 코드를 포함하는 이 
전 Linux 판본에서 유래되였다. 제거가능한 핵심부구성요소를 위해 system _ call 표에 여 
러 체계호출을 예 약하는 일은 비 합리적이므로 핵심부설계 자는 다중화장치방식을 채택하 
였 다. 

지금은 System Y IPC 를 더는 동적모둘로 를파일할수 없으며 단일 IPC 체계호출을 
사용할 리유가 없다. 사실 Linux 는 HP Alpha 방식과 Intel IA -64 에서는 각 IPC 함수 
에 대해 체계 호출을 하나씩 제공한다. 

3) IPC 신호기 

IPC 신호기는 핵심부신호기와 대단히 류사하다. 이 신호기들은 여러 프로쎄스가 공 
유하는 자료구조에 대 한 통제 된 접 근방법 을 제 공하기 위 해 사용하는 계 수기 이다. 

신호기값은 보호된 자원이 리용가능하면 정수이며 보호된 자원이 현재 리용불가능하 
면 0이다. 자원에 접근하려는 프로쎄스는 신호기값을 감소시킨다. 그러나 신호기값이 0 
이면 핵심부는 신호기값이 정수가 될 때까지 프로쎄스를 차단한다. 프로쎄스가 보호된 
자원을 해제하면 신호기값을 감소시키고 이렇게 함으로써 신호기에 대기중인 다른 프로 
쎄스가 깨 여 나게 되는것 이 다. 

실제로 IPC 신호기는 다음 두가지 리유로 인해 핵심부신호기보다 좀더 다루기 어렵다. 

■ 각 IPC 신호기는 핵심부신호기처럼 단일값이 아니라 신호기값 하나이상을 가지는 
집합이다. 즉 한 IPC 자원이 여러 룩립적인 공유자료구조를 보호할수 있다는 의미이다. 
각 신호기에 있는 신호기값의 수는 자원을 할당할 때 semgetO 함수의 변수로 명시해야 
한다. 이제부터 IPC 신호기 내부의 계수기를 기 본신호기 (primitive semaphore ) 라고 한 
다. 두가지 제한값이 있는데 하나는 IPC 신호기 자원의 수(기본적으로 128) 이고 다른 
하나는 단일 IPC 신호기 자원내의 기본신호기 수(기본적으로 250) 이다. 그러나 체계관 
리 자는 《/ proc / sys / kernel / sem 》 파일 에 다른 수자를 기 록함으로써 이 제 한값을 쉽 게 
변경할수 있다. 

■ System V IPC 신호기 에 는 프로쎄 스가 신호기 에 내린 이 전연산을 취 소하지 못하 
고 죽는 상태 에 대한 실패-안전 ( fail - safe ) 기구가 있다. 프로쎄스가 이 기구를 사용하는 
경우 이런 연산을 취소가능 ( undoable ) 신호기연산이라고 한다. 프로쎄스가 죽을 때 프 
로쎄스의 모든 IPC 신호기는 프로쎄스가 연산을 시작하지 않았을 경우 가졌을 값으로 되 
돌아갈수 있다. 이렇게 함으로써 신호기연산을 취소하는데 실패함으로 인해 같은 신호기 
를 사용하는 다른 프로쎄스가 차단된 상태로 계속 남아있는것을 방지한다. 

먼저 IPC 신호기로 보호된 자원 하나이상에 접근하려는 프로쎄스동작의 전형적인 단 
계 를 살며 보자. 

1. IPC 신호기식별자를 얻기 위해 semgetO 래퍼함수를 호출한다. 변수로는 공유자 
원을 보호하는 IPC 신호기의 IPC 단어를 전달한다. 프로쎄스가 새로운 IPC 신호기를 생 
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성하려면 IPC_CRATE 또는 IPC _ PRIVATE 기발과 필요한 기본신호기의 수도 지정한 
다. (앞서 본 《 IPC 자원 리 용하기》를 참고) 

2. semopO 래퍼함수를 호출하여 모든 기본신호기값을 검사하고 감소시킨다. 모든 
검사가 성공하면 신호기값을 줄이고 완료한다. 그러면 프로쎄 스는 보호된 자원에 접근할 
수 있게 된다. 이미 사용중인 신호기가 있다면 프로쎄 스는 다른 프로쎄스가 자원을 해제 
할 때까지 보류된다. 함수는 IPC 신호기식별자와 기본신호기에서 자동으로 실행되기 위 
한 지정한 연산을 나타내는 정수의 배렬과 이러한 연산의 수를 변수로 받는다. 프로쎄스 
는 선택 항목으로 SEM _ UNDO 기 발을 지 정할수 있는데 이 기 발은 프로쎄 스가 기 본신호 
기 를 해 제 하지 않고 완료한 경 우 핵 심 부가 연산을 되 돌리 도록 지 시한다. 

3. 보호된 자원을 풀어줄 때 semopO 함수를 다시 호출하여 관련된 모든 기본신호 
기를 한번에 증가시킨다. 

4. 선택항목으로 IPC _ RMID 명령을 지정하여 semctlO 래퍼함수를 호출하여 체계에 
서 IPC 신호기 를 제 거한다. 

이제 핵심부에서 IPC 신호기를 실현하는 방법을 론의할수 있다. 관련된 자료구조는 
그림 3-15 와 같다. semjds 변수는 IPC 신호기자원류형인 ipc _ ids 자료구조를 저장한다. 
ipc _ ids 자료구조의 entries 마당은 sem _ array 자료구조를 가리 키는 지적 자의 배렬 이며 
각 항목은 IPC 신호기자원 하나씩을 가리킨다. 


semidsentries 



그림 3-15. IPC 신호기자료구조 

형식적으로 배럴은 kem _ ipc_perm 자료구조의 지적자를 저장하지만 사실 매개의 자 
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료구조는 sem_array 자료구조의 첫번째 마당이다. sem_array 자료구조의 모든 마당은 
표 3-20 에 있다. 


표 3-20. _ sem_array 자료구조의 □[당 


형 

마 당 

설 명 

struct kern_ipc_perm 

sem_perm 

ke rn_ipc_pe r m 자료구조 

long 

sem_otime 

마지막 semopO 의 시간형 

long 

sem_ctime 

마지막 변경에 대한 시간형 

struct sem * 

sem_base 

처음 sem 구조체를 가리키는 지적자 

struct sem_queue * 

sem_pending 

대기중인 연산 

struct sem_queue ** 

sem_pending_last 

마지막 대기중인 연산 

struct sem_undo * 

undo 

취 소 (undo) 요청 

unsigned short 

sem_nsems 

배럴에 있는 신호기수 


sem_base 마당은 struct sem 자료구조의 배럴을 가리킨다. 배렬의 각 자료구조는 
IPC 신호기 하나를 나타낸다. 이 자료구조는 다음 두 마당을 포함한다. 
semval 

신호기의 계수기 값 
sempid 

신호기에 마지막으로 접근한 프로쎄스의 PID. 이 PID 값은 프로쎄스가 
semctlO 래퍼함수를 사용하여 질문할수 있다. 

4) 취소가능한 신호기연산 

프로쎄 스가 갑자기 멈 추면 프로쎄스는 시 작한 연산을 취소할수 없다. (례 를 들면 예 
약한 신호기해제) 따라서 프로쎄스를《취소가능》으로 선언하여 핵심부가 신호기를 이 
전의 일관성있는 상태 로 되돌리 고 다른 프로쎄스가 작업 을 계속 진행 하게 한다. 프로쎄 
스는 SEM_UND ◦기발을 지정해서 sem_op() 함수를 호출하여 취소가능한 연산을 요청 
할수 있다. 

sem_undo 자료구조에는 정해진 어떤 IPC 신호기자원에 대해 프로쎄스가 수행한 취 
소가능한 동작연산을 핵 심부가 되돌리는것을 돕기 위 한 정보가 저장되 여있다. 이것은 핵 
심적으로 신호기의 IPC 식별자와 프로쎄스가 수행한 퀴소가능한 연산의 수행결과로 발생 
한 기본신호기의 변경값을 나타내는 정수의 배럴을 포함하고있다. 

sem _ undo 요소를 리용하는 방법을 간단히 설명하면 다음과 같다. 기본신호기 4개 
를 포함하고 IPC 신호기 자원을 리용하는 프로쎄스가 있으며 이 프로쎄스는 처음 계수기 
를 하나 증가시키고 두번째 계수기를 2씩 감소시키는 semopO 함수를 호출한다고 가정 
하자.이 프로쎄스가 SEM_UNDO 기 발을 지정하면 sem _ undo 자료구조의 첫번째 배 렬요 
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소에 있는 정수는 하나 감소하고 두번째 요소에 있는 정수는 둘 증가할것이며 다른 두 
정수는 바뀌지 않을것 이 다. 

동일한 프로쎄스에서 수행하는 IPC 신호기에 대한 취소가능한 연산은 sem _ undo 구 
조체의 정수값을 적절하게 바꾼다. 프로쎄스가 완료되면 배럴에 있는 0이 아닌 값은 대 
응하는 기본신호기에 있는 불완전한 연산과 대응한다. 핵심부는 대응하는 신호기의 계수 
기에 0이 아닌 값을 더함으로써 이 연산들을 되돌린다. 다시 말하면 중단된 처리기가 
변경한 값은 취소하며 다른 프로쎄스가 변경한 값은 신호기의 상태에 계속 반영한다. 

각 프로쎄스에 대해서 핵심부는 취소가능한 연산으로 처리하는 모든 신호기자원을 
추적하여 프로쎄스가 예상하지 못한 완료를 하게 되면 다시 취소할수 있게 한다. 그러고 
매 신호기 에 대해 핵심부는 모든 sem _ undo 구조체를 추적하여 프로쎄스가 기본 신호기 
의 계수기안에 명시적 인 값을 넣 어서 semctlO 을 사용할 때 혹은 IPC 신호기자원을 제 
거 하려 할 때 구조체 에 빠르게 접근할수 있다. 

핵 심부는 프로쎄 스별 ( per - process ) ，신호기 별 ( per - semaphore ) 목록이 있음으로 
하여 이러한 작업을 효률적으로 처리할수 있다. 프로쎄스별목록에서는 취소가능한 연산 
으로 프로쎄스가 실행한 모든 신호기의 연산을 추적을 유지하고있으며 신호기별목록에서 
는 취소가능한 연산으로 해 당 신호기를 사용한 모든 프로쎄스의 추적을 유지한다. 좀 더 
자세히 살펴보면 다음과 같다. 

> 프로쎄스별목록에는 프로쎄스가 취소가능한 연산을 수행 한 IPC 신호기 에 대응하 
는 모든 sem _ undo 자료구조가 들어있 다. 프로쎄 스서 술자의 semundo 마당은 
목록의 처음 요소를 가리키며 매 sem _ undo 자료구조의 proc _ next 마당은 목록 
의 다음 요소를 가리킨다. 

> 신호기별목록은 신호기에 대해 취소가능한 연산을 수행한 프로쎄스에 대응하는 
모든 sem _ undo 자료구조를 포함한다. sem _ array 자료구조의 undo 마당은 목록 
의 처음 요소를 가리키고 sem _ undo 자료구조의 id _ next 마당은 목록의 다음 요 
소를 가리킨다. 

프로쎄스별목록은 프로쎄스가 완료할 때 사용한다. do _ exit () 함수가 호출하는 
sem _ exit () 함수는 목록을 확인하면서 프로쎄스가 건드린 모든 IPC 신호기의 적절하지 
않은 연산을 취소한다. 반면에 신호기별목록은 주로 프로쎄스가 기본신호기 에 특정한 값 
을 대입하기 위해 semctlO 함수를 호출할 때 리용한다. 또한 신호기별목록은 IPC 신호 
기를 제거할 때도 리용할수 있다. 관련된 모든 sem _ undo 자료구조는 semid 마당을 -1 로 
설정하여 무효화한다. 

5) 기다리는 요청의 대기렬 

핵심부는 배럴에 있는 하나이상의 신호기를 기다리는 프로쎄스를 식별하기 위해 기 
다리는 요청 (pending requests ) 의 대기렬을 매 IPC 신호기에 대응시킨다. 이 대기렬은 
sem _ queue 자료구조의 2중련결목록이며 대 기렬의 각 마당은 표 3_21과 같다. 
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sem_array 구조체의 sem_pending 과 sem_pending_last 마당은 각각 대기 렬의 처음과 
마지막을 기다리는 요청을 가리킨다. 마지막 마당은 목록을 FIFO 처럼 쉽게 처리할수 
있게 해준다. 즉 새로운 기 다리는 요청은 후에 처 리하도록 목록의 마지막에 추가한다. 
기 다리는 요청의 가장 중요한 마당은 nsops (기 다리는 연산에 관련된 기본신호기의 수가 
저 장되 여있 다)와 sops (각 신호기 연산을 나타내 는 정 수값배 렬 을 가리 킨다. ) 이 다. 
sleeper 마당에 는 연산을 요청 한 잠든 프로쎄 스의 서 술자주소가 저 장되 여있 다. 


표 3-21. _ sem_queue 구조체의 □[당 


형 

마 당 

설 명 

struct sem_queue * 

next 

다음대기 렬요소를 가리키는 지적자 

struct sem_queue ** 

prev 

이전대기 렬요소를 가리키는 지적자 

struct task_struct * 

sleeper 

신호기 연산을 요청 한 잠든 프로쎄스지적 자 

struct sem_undo * 

undo 

sem_undo 구조체의 지적자 

int 

pid 

프로쎄 스식 별 자 

int 

status 

연산완료상태 

struct sem_array * 

sma 

IPC 신호기서술자를 가리키는 지적자 

int 

id 

IPC 신호기자원의 슬로트색인 

struct sembuf * 

sops 

기다리는 연산의 배럴을 가리키는 지적자 

int 

nsops 

기 다리는 연산의 수 

int 

alter 

연산이 신호기값을 변경한다는것을 나타내 
는 기발 


그림 3-15 는 기다리는 요청 세개를 가진 IPC 신호기를 나타낸다. 두 요청은 취소가 
능한 연산을 참조하며 semqueue 자료구조의 undo 마당은 대응하는 sem_undo 구조체를 
가리 킨 다. 

세번째 기다리는 요청은 대응하는 연산을 퀴소할수 없으므로 undo 마당이 NULL 이다. 

6) IPC 통보문 

프로쎄스는 IPC 통보문을 리용하여 다른 프로쎄스와 통신을 할수 있다. 프로쎄스가 
생성한 각 통보문은 IPC 통보문대기렬로 전송되며 다른 프로쎄스가 읽을 때까지 통보문 
대기렬에 머문다. 

통보문은 고정된 크기의 머리부와 가변크기의 본문으로 이루어진다. 통보문에는 통 
보문류형을 나타내는 정수값이 불을수 있으며 이러한 정수값을 리용하여 프로쎄스는 통 
보문대 기렬에서 선택적 으로 통보문을 읽 을수 있다. IPC 통보문대 기 렬 에서 프로쎄스가 통 
보문을 읽으면 핵심부는 통보문을 제거한다. 그러므로 단 한 프로쎄스만이 주어 진 통보 
문을 받게 된다. 
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프로쎄스는 통보문을 보내기 위해서 msgsndO 함수를 호출하며 다음과 같은것을 변 
수로 전달한다. 

■ 목적지 통보문대기렬의 IPC 식별자 

■ 통보문본문의 크기 

■ 통보문류형과 뒤에 따라오는 통보문본문을 포함하는 사용자방식완충기의 주소 
프로쎄스는 통보문을 받기 위해서 msgrcvO 함수를 호출하며 다음과 같은것을 변수 

로 전달한다. 

- IPC 통보문대기렬자원의 IPC 식별자 

■ 통보문류형과 통보문본문을 복사할 사용자방식완충기의 지적자 

■ 완충기크기 

■ 어떤 통보문을 받을것 인가를 나타내는 값 

t 값이 0이면 대기렬 에 있는 첫번째 통보문을 반환한다. t 가 정수이 면 통보문대 기 렬 
에 있는 t 와 같은 류형의 처음 통보문을 반환한다. 마지막으로 t 가 부수이면 함수는 값 
이 t 의 절대값보다 작거 나 갈은 가장 작은 통보문류형의 처음 통보문을 반환한다. 

자원의 소비 를 피 하기 위해 리 용가능한 IPC 통보문대 기 렬 자원의 수(기 본 16) 와 각 
통보문크기(기본 8192 B ), 그리고 대기렬에 있는 통보문의 총 크기 (기본 16384 B ) 에 제 
한이 있다. 그러나 일반적으로 체계관리자는 / proc / sys / kernel / msgmni , 
/ proc / sys / kernel / msgmnb , / proc / sys / kernel / msgmax 파일을 수정하여 이러한 값 
들을 변경할수 있 다. 


msg _ ids . entries 
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그림 3-16 은 IPC 통보문대기렬과 관련있는 자료구조를 보여준다. msg_ids 변수에는 
IPC 통보문대기렬자원류형의 ipcjds 자료구조를 저장한다. entries 마당은 mosg_queue 
자료구조에 대한 지적자의 배렬이며 각 항목은 IPC 통보문대기렬자원 하나를 나타낸다. 
형식적으로 배럴은 kern_ipc_perm 자료구조의 지적자를 저장하지만 사실 각 구조체는 
msg_queue 자료구조의 첫 번째 마당이다. msg_queue 자료구조의 모든 마당은 표 3-22 
과 갈다. 


표 3-22. __ rnsg _ queue 자료구조 


형 

마 당 

설 명 

struct ipc_perm 

q perm 

ke rn_ipc_pe rm 자료 구조 

long 

q_stime 

마지막 msgsndO 의 시간 

long 

q_rtime 

마지막 msgrcv () 의 시간 

long 

q_ctime 

마지막변경시간 

unsigned long 

q_qcbytes 

대기렬에 있는 바이트수 

unsigned long 

q_qnum 

대기렬에 있는 통보수 

unsigned long 

Q_Qbytes 

대 기 렬의 최 대 크기 ( B 단위) 

int 

q_lspid 

마지막 msgsndO 의 PID 

int 

q_lrpid 

마지막 msgrcvO 의 PID 

struct list_head 

q_messages 

대기 렬에 들어있는 통보문목록 

struct list-head 

q_receivers 

통보문을 받을 프로쎄스목록 

struct list_head 

q_senders 

통보문을 보낼 프로쎄스목록 


이중에서 가장 중요한 마당은 q_messages 이다. 이 마당은 현재대기렬에 있는 모든 
통보문을 포함하고있는 2중련결원형목록의 머리부(즉 처음 허수아비요소)를 나타낸다. 

각 통보문은 동적 으로 할당된 하나이상의 폐지 에 분할되 여 들어간다. 첫 번째 폐지의 
시작부분에 msg_msg 형인 자료구조로된 통보문머리부가 저장된다. 이 자료구조의 마당 
은 표 3-23 과 같다. mjist 마당에는 대기렬에서의 이전과 다음통보문을 가리키는 지적 
자를 저장한다. 통보문본문은 msg_msg 서술자 바로 다음에서 시작한다. 통보문이 
4072B (페지크기- msg_msg 서술자크기)보다 길다면 다음 페지에서 계속되며 이 폐지의 
주소는 msg_msg 서술자의 next 마당에 저장된다. 두번째 폐지 틀은 msg_msgseg 형서 술 
자로 시작한다. msg_msgseg 는 세번째 페지의 주소를 저장하고있는 next 지적자만을 담 
고있다. 
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표 3-23. _ msg_msg 자료구초 


형 

마 당 

설 명 

struct list_head 

m_list 

통보문목록의 지적자 

long 

m_type 

통보문류형 

int 

m_ts 

통보문본문의 크기 

struct msg_msgset * 

next 

다음 통보문부분의 위치 


통보문대 기 렬 이 모두 차게 되 면(리 용가능한 통보문의 최 대 수에 도달하거 나 전체 크 
기의 최대값에 도달한 경우) 새로 운 통보문을 대기렬에 넣으려는 프로 쎄스는 차단된다. 
msg_queue 자료구조의 q_senders 마당은 모든 차단된 전송 즉 프로 쎄스의 서술자를 가 
리키는 지 적 자를 담고있는 목록의 머 리부이다. 

수신측프로쎄스도 통보문대기렬이 비여있으면(또는 프로쎄스가 지정한 류형의 통보 
문이 대기렬에 없을 때) 차단될수 있다. msg_queue 자료구조의 q_receivers 마당은 차 
단된 수신측프로쎄스를 나타내는 msg_receiver 자료구조목록의 머리부이다. 매 자료구 
조는 프로쎄스의 서술자를 가리키는 지적 자，통보문의 msg_msg 구조체를 가리키는 지적 
자, 요청한 통보문 류형을 담고있다. 

7) IPC 공유기억 기 

가장 유용한 IPC 기 구는 공유기억기 이 다. 공유기억 기는 공통자료구조를 IPC 공유기 
억기령역에 넣으면 둘이상의 프로쎄스가 해당 공통자료구조에 접근할수 있게 해준다. 
IPC 공유기억기령역에 있는 자료구조에 접근하려는 프로쎄 스는 IPC 공유기억기 령역의 페 
지틀을 사영하는 새로운 기억기령역을 프로쎄스자신의 주소공간에 추가해야 한다. 핵심 
부는 요구페지화를 통해 이런 패지틀을 쉽게 처리할수 있다. 신호기와 통보문대기렬과 
마찬가지로 shmgeto 함수를 호출하여 공유기억기 령 역의 IPC 식별자를 얻을수 있다. 이 
미 존재하는 공유기억기령역 이 아니라면 새로 생성한다. 

shmatO 함수를 호출하여 IPC 공유기억기 령 역을 프로쎄스에 붙일수 있다. 이 함수는 
IPC 공유기억 기 자원의 식 별 자를 변수로 받으며 호출한 프로쎄 스의 주소공간에 공유기 억 
기 령 역을 추가한다. 호출한 프로쎄스는 기 억기령 역 에 대 한 특정 시작선형주소를 요청할 
수 있지만 이 주소는 그다지 중요하지 않으며 공유기억기령 역 에 접근하려는 각 프로쎄스 
는 자신만의 주소공간에서 서로 다른 주소를 리용할수 있다. shmatO 함수는 프로쎄스의 
페지표를 변경하지 않는다. 새로운 기억기령역을 포함하는 폐지에 프로쎄스가 접근하려 
고 할 때 핵심부가 수행하는 일은 뒤에서 설명한다. 

shmdtO 함수는 IPC 식별자가 명시한 IPC 기억기령역을 떼여내기 위해 다시 말하면 
프로쎄스 주소공간에서 대응하는 기억기령역을 제거하기 위해 호출한다. IPC 공유기억기 
자원은 지속적이라는 점을 다시 상기해보자. 해당 자원을 리용하는 프로쎄스가 없어지고 
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대 응하는 패지 가 교체되 여 나가더 라도 공유기억기 령역은 제거할수 없다. 

IPC 자원의 다른 류형 들처 럼 사용자방식프로쎄스가 공유기억기를 너무 많이 사용하 
는것 을 방지 하기 위 해 IPC 공유령역 의 수(기 본 4096) 와 각 토막의 크기(기 본 32MB) 
그리고 모든 토막의 최대 총 사용량 (8GB) 제한이 있다. 

체계관리자는 /proc/sys/kernel/shmmin 과 / proc/sys/kernel/shmmax 그리고 
/proc/sys/kernel/shmall 파일에 적절한 값을 기록하여 이러한 제한을 조정할수 있다. 
IPC 공유기억기령역에 관련한 자료구조는 그림 3-17 에서 보는바와 같다. 


shm 



그림 3-17. IPC 공유기억기 자료구조 

shm_ids 변수는 IPC 공유기 억 기자원류형의 ipc_ids 자료구조를 저장한다. entries 마 
당은 IPC 공유기억 기 자원을 나타내 는 shmid_kernel 자료구조를 가리 키 는 지 적 자의 배 렬 
이다. 형식적으로 배럴은 kern_ipc_perm 자료구조를 가리키는 지적자를 저장하지만 매 
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구조체는 단순히 shmid_kernel 자료구조의 첫번째 마당이다. 

표 3-24 는 shmid_kernel 자료구조의 모든 마당을 보여준다. 

가장 중요한 마당은 shm_file 로서 파일객체의 주소를 저장하고있다. 이것은 Linux 
2. 6 의 VFS 계층과 IPC 공유기억기의 밀접 한 통합을 반영 한다. 또한 매 IPC 공유기억기 
령역은 shm 특수파일체계에 속한 정규파일과 대응한다. 

shm 파일체계는 체계등록부에 탑재지점이 없기때문에 사용자는 일반적인 VFS 체계 
호출을 리용하여 열거나 접근할수 없다. 그러나 프로쎄스가 토막 하나를 붙일 때마다 핵 
심 부는 do_mmap() 을 호출하고 파일의 새 로운 공유기억 기 배 치 를 프로쎄 스의 주소공간 
에 생성한다. 그러므로 shm 특수파일체계에 속한 과일은 하나뿐인 파일객체 메쏘드 
(mmap) 를 가지며 이 메 쏘드는 shm_mmap() 함수로 실현한다. 


M 3-24. shmid_kernel 구조제의 당 


형 

마 당 

설 명 

struct kern_ipc_perl 

shm_perm 

ke rn_ipc_pe r m 자료구조 

struct file * 

shm_file 

토막에 대한 특수파일 

int 

id 

토막에 대 한 슬로트색 인 

unsigned long 

shm_nattch 

현재 붙어있는 프로쎄스수 

unsigned long 

shm_segsz 

토막크기 ( B 단위 ) 

long 

shm_atime 

마지 막접 근시 간 

long 

shm_dtime 

마지막 떼여진 시간 

long 

shm_ctime 

마지막변경시간 

int 

shm_cprid 

생성자의 PID 

int 

shm_lprid 

마지막으로 접근한 프로쎄스의 PID 


그림 3-17 에서 보여주는것처 럼 IPC 공유기억기 령역과 대응하는 기 억기 령역은 
vm_area_struct 객체로 표현된다. 이 객체의 vm_file 마당은 다시 특수파일의 파일객체 
를 가리키고 파일객체는 등록부입구점객체와 i 마디객체를 가리킨다. i 마디의 i_ino 마당에 
저 장된 i 마디 번호는 실제 로는 IPC 공유기 억기 령 역의 슬로트색 인값이 기때 문에 i 마디객체는 
shmid_kernel 서술자를 간접적으로 참조하게 된 다. 

모든 공유기억기령역에 대해서 IPC 공유기억기에 속한 페지틀은 i 마디의 i_mapping 
마당을 통해 참조하는 address_space 객체형태로 페지패쉬에 포함된다. 

8) IPC 공유기 억 기 령 역 의 폐 지 를 교환하여 내 보내 기 

핵심부는 공유기억기령역에 포함된 폐지를 교환하여 내보낼 때 매우 주의하여야 하 
며 교환기캐쉬의 역할이 매우 중요하다. 

《 try_to_swap_out 0 함수》에서 설명하겠지만 핵심부는 address_space 객체가 소 
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유한 폐지를 교환하여 내보내기 위해서 패지에 불결한 (dirty) 것이라고 표시하여 디스크 
로 자료를 전송하도록 한 다음 프로쎄스의 페지표에서 폐지를 제거한다. 패지가 공유파 
일기 억기배 치 에 포함되여있다면 결국 폐지를 더는 어떤 프로쎄스도 참조하지 않게 되고 
shrink_cache() 함수는 이 패지를 해제하여 형제체계으로 돌려보낸다. 이것은 폐지에 
있는 자료가 디스크에 있는 자료의 복사본이므로 정확히 동작한것이라고 볼수 있다. 

그러나 IPC 공유기억기령역의 폐지는 디스크에 영상이 없는 특수한 i 마디로 배치한 
다. 그리 고 IPC 공유기 억기는 지속적 이며 따라서 공유기억기의 폐지는 토막이 아무 프 
로쎄스에도 붙어있지 않더라도 계속 보호해야 한다. 그러므로 핵심부는 대응하는 폐지틀 
을 회수할 때 폐지를 간단히 제거할수 없다. 대신 폐지를 교환하여 내보내야 한다. 

try_to_swap_out() 함수는 이러한 특별한 경우를 검사하지 않기때문에 령역에 속한 
폐지는 불결한것 으로 표시되 며 프로쎄 스주소공간에서 제거 된다. 폐지캐쉬 에서 최근에 사 
용하지 않은 폐지를 주기적으로 제거하는 shrink_cache() 함수도 이러한 특별한 경우에 
대한 검사기능이 없으므로 결국 소유자인 address_space 객체의 writepage 메쏘드를 
호출한다. 

이제 공유기억기폐지가 교체되여 나갈 때 IPC 공유기억기를 보호하는 방법을 보자. 

IPC 공유기억기령역에 속한 폐지는 변형된 shmem_writepage() 함수를 리용하여 
writepage 메 쏘드를 실현 한다. shmem_writepage() 함수는 교환령 역에 새로운 페지 슬로 
트를 생성하고 패지캐쉬에서 교환캐쉬로 패지를 옳긴다. (폐지의 소유자인 
address_space 객체의 변경일 뿐이다.) 

함수는 또한 교체되여나간 폐지의 식별자를 i 마디객체의 과일체계별령역의 
shmem_inode_info 구조체에 저장한다. 폐지는 교환공간에 즉시 기록되지 않으며 
shink_cache() 함수가 다시 호출할 때 기록된다. 

9) IPC 공유기 억기령 역에 대한 요구페 지 화 

shmatO 함수를 통해 프로쎄스에 추가된 페지는 허수아비폐지이다. 함수는 새로운 
기 억기 령 역을 프로쎄 스주소공간에 추가하지만 프로쎄 스폐지표는 갱 신하지 않는다. IPC 
기억기령역의 폐지는 교체되여 나갈수도 있다. 그러므로 이러한 폐지는 요구페지화기구 
로 처리된다. 

폐지오유 (page fault) 는 프로쎄스가 아직 폐지틀을 할당하지 않은 IPC 공유기억기령 
역의 위치에 접근하려고 시도할 때 발생한다. 이와 대응하는 례외조종기는 잘못된 주소가 
프로쎄스주소공간내부에 있는지 그러고 대응하는 페지표입구점이 NULL 인가를 결정한 후 
do_no_page() 함수를 호출한다. 이 함수는 기억기령역에 nopage 메쏘드가 정의되여있는가 
를 검사한 다음 이 메쏘드를 호출하고 페지표입구점을 메쏘드가 반환한 값으로 설정한다. 

IPC 공유기억기 에 사용하는 기 억기 령역은 언제 나 nopage 메쏘드를 정의한다. 이 메 
쏘드는 shmem_nopage() 함수로 실현되 여있으며 다음연산을 수행 한다. 

1. VFS 객체들의 내부지적자사슬을 훑으면서 IPC 기억기자원의 i 마디객체의 주소를 
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가져온다.(그림 3-17 참고) 

2. 기령역서술자의 vm _ start 마당과 요청한 주소로부터 토막안에서의 론리적페지번 
호를 계산한다. 

3. 폐지가 이미 교환캐쉬에 포함되여있는지 확인한다. 만약 포함되여있다면 주소를 
반환한 후 완료한다. 

4. i 마디객체내부의 shmem _ inode _ info 가 론리적페지번호수자에 대한 교체되여 나 
간 페지식별자를 저장하고있는지 확인한다. 만약 저 장되 여있으면 swapin _ readahead () 
를 호출하여 교체들여오기 ( Swap - In ) 연산을 진행 한다. 자료전송이 완료될 때까지 대기 
한 후 폐지주소를 반환함으로써 완료한다. 

5. 그외 경우에 는 교환령 역 에 폐지 가 저 장되 여있지 않다. 함수는 형제체계 에서 새 로 
운 폐지를 할당하고 이 패지를 패지캐쉬에 추가한 다음 그 주소를 반환한다. 

do _ no _ page () 함수는 프로쎄스의 페지표에 있는 잘못된 주소에 대응하는 항목이 메 
쏘드가 반환한 페지틀을 가리키도록 설정한다. 
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제 4 장. 기억기 

제 1 절. 기억기주소지정 

이 절에서는 주소를 지정하는 방법에 대하여 서술한다. 일반적으로 조작체계가 물리 
적인 기억기에 대한 모든 사항을 알고있어야 할 필요는 없다. 최근의 극소형처리기에는 
기 억기관리를 더 효률적으로 할수 있도록 프로그람작성오유에 적극적으로 대응하는 하드 
웨어회로가 여러개 들어있다. 

이 절에서는 80 x 86 극소형처리기에서 기억기소편의 주소를 지정하는 방법과 Linux 
에서 하드웨어에서 제공하는 주소지정회로를 활용하는 방법에 대하여 자세히 서술한다. 
가장 보편적인 Linux 기반에서 이것을 구현하는 방법을 자세히 알게 되면 일반적인 페 
지화에 대한 리론과 다른 기반에서 구현하는 방법을 더 쉽게 리해할수 있다. 

1. 기억기주소 

프로그람작성자들은 기억기주소 (memory address ) 를 단순히 기억기요소 ( cell ) 내 
용에 접근하는 수단으로 생각한다. 그러나 80 x 86 극소형처 리소자를 다루려면 다음과 같 
은 세 종류의 주소를 서 로 구별할수 있어 야 한다. 

1) 론리주소 

기계 어명 령에서 피연산자나 명 령의 주소를 지정할 때 사용한다. 이 류형의 주소는 
MS - DOS 와 Windows 프로그람작성 자들이 프로그람을 작성 할 때 프로그람을 여 러 토막 
으로 조개도록 하는 유명한 Intel 의 토막구조를 구체화한것이다. 론리주소 (logical 
address ) 는 토막과 토막의 시작부터 실제주소까지의 거 리를 나타내는 편위 ( offset , 
displacement 라고도 한다.)로 이루어진다. 

2) 선형주소 

부호가 없는 32 bit 크기의 정수값으로 4 GB 즉 기 억기요소 4, 294,967,296개까지 
주소를 지정할수 있다. 선형주소(가상주소라고도 한다.)는 보통 16진수로 표시하며 값 
의 범위는 0 x 00000000 에서 Oxffff 打打까지이다. 

3) 물리주소 

기 억 기 소편에 들어 있는 기 억 기 요소를 지 정 하는데 사용하는 주소로 극소형 처 리 기 에 서 
주소단자 (address pin ) 를 통해 기 억 기모선 (memory bus ) 에 보내는 전기신호에 해 당한 
다. 물리주소 (physical address ) 는 부호가 없는 32 bit 크기의 옹근수로 나타낸다. 

CPU 의 조종장치는 토막유니트 (segmentation unit ) 라는 하드웨어희로를 리용하여 
론리주소를 선형주소로 변환하고 계속해서 페지화유니트 (paging unit ) 라는 또 다른 하 
드웨 어회 로를 리 용하여 선형 주소를 물리 주소로 변환한다. (그림 4-1 참고) 
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그림 4-1. 론리주소의 변환과정 


다중과제처리체계에서는 모든 CPU 가 같은 기억기를 공유한다. 즉 서로 독립적인 
CPU 들이 동시에 기억기소편에 접근할수도 있다. 기억기소편에 읽고쓰는 동작은 차례대 
로 이루어져야 하므로 모선과 모든 기억기소편사이에는 기억기중재자 (memory arbiter ) 
라는 하드웨어회로가 들어간다. 이 회로의 역할은 소편을 사용하지 않고있으면 CPU 가 
소편에 접근할수 있도록 하고 다른 처리기의 요청을 처리하는중이면 소편에 대한 접근을 
지연하는것이다. 단일처리기 체계에서도 기억기중재자를 사용하는데 CPU 와 별개로 동작 
하는 DMA 라는 전용소자가 있기때문이 다. 

다중처 리기체계 에서는 입 력포구가 더 많기때 문에 기 억기중재 자의 구조가 훨씬 복잡하 
다. 례를 들어 펜리움 CPU 두개를 사용하는 경우 각 소편의 입구에 포구가 두개인 중재 
자를 둔 후 두 CPU 가 공통모선을 사용하려 할 때 먼저 동기화통보문을 교환하도록 한다. 
중재 자는 하드웨 어회 로로 이 루어지기때 문에 프로그람작성견지 에서는 보이지 않는다. 

2. 하드웨어토막화 

Intel 극소형 처 리기는 80386모형부터 실방식 (real mode ) 과 보호방식 (protected 
mode ) 이라는 서로 다른 두가지 방법으로 주소변환을 하기 시작하였다. 이 두가지 방식 
은 아래에서 설명한다. 실방식은 주로 이전모형과 처러기호환성을 유지하고 조작체계가 
기동할수 있도록 하기 위한것 이 다. 

1) 토막등록기 

론리주소는 두부분 즉 토막식별자 (segment iden 仕 fier ) 와 토막내에서 상대적인 주 
소를 나타내는 편위 ( offset ) 로 구성된다. 토막식별자는 토막선택기 (segment selector ) 
라는 16 bit 마당이며 편위는 32 bit 마당이다. 

처리기는 토막선택기를 빨리 엄어오려고 토막선택기를 보관할 목적으로만 사용하는 
토막등록기 (segmenta 吐 on ) 를 제 공한다. 이 등록기 로는 cs , ss , ds , es , fs , gs 가 있 다. 

비록 등록기가 여섯개밖에 없지만 프로그람은 등록기의 내용을 저장하고 후에 다시 
복구하는 방법을 통해 똑갈은 토막등록기를 다른 용도로 재리용할수 있다. 

토막등록기 6개중 3개는 특별한 용도로 사용한다. 

> cs 코드토막등록기 (code segment register ) 로서 프로그람명 령 을 담고있는 토 
막을 가리킨다. 

> ss 탄창토막등록기 (stack segment register ) 로서 현재 프로그람의 탄창을 담 
고있는 토막을 가리킨다. 
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> ds 자료토막등록기 (data segment register ) 로서 정 적 인 자료와 대 역 자료를 담 
고있는 토막을 가리킨다. 

나머지 세 토막등록기는 범용으로 임의의 토막을 가리킬수 있다. 
cs 등록기에는 중요한 기능이 하나 더 있다. 여기에는 CPU 의 현재특권준위 ( CPL : 
Current Privilege Level ) 를 나타내는 2 bit 마당이 있다. 0은 가장 높은 특권준위를, 
3은 가장 낮은 특권준위을 나타낸다. Linux 는 0과 3준위만을 사용하는데 각각 핵심부 
방식 (kenel mode ) 과 사용자방식 (user mode ) 이 라고 한다. 

2) 토막서술자 

토막의 특징을 서술하는 8 B 크기의 토막서 술자 (segment descriptor ) 로서 각 토막 
를 표현한다. (그림 4-2 참고) 

토막서술자는 대역서술자표 ( GDT：Global Descriptor Table ) 나 국부서술자표 
( LDT : Local Descriptor Table ) 에 저장된다. 

자료토막서술자 


63 62 61 60 59 58 57 56 55 54 53 52 51 50 49 48 47 46 45 44 43 42 41 40 39 38 37 36 35 


BASE (24-31) 

G 

B 

O 

A 

V 

L 

LIMIT 

(16-19) 

1 

D 

P 

L 

S 

1 

TYPE 

BASE (16-23) 

BASE (0-15) 

LIMIT (0-15) 


31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 


코드토막서술자 

63 62 61 60 59 58 57 的 55 54 53 52 51 50 49 48 47 46 45 44 43 42 41 40 39 38 37 36 35 34 33 32 


BASE(24-31) 

G 

B 

O 

A 

V 

L 

LIMIT 

(16-19) 

1 

D 

P 

L 

S 

1 

TYPE 

BASE (16-23) 

BASE (0-15) 

LIMIT (0-15) 


31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 876543210 
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체계토막서술자 


63 62 61 60 59 58 57 56 55 54 53 52 51 50 49 48 47 46 45 44 43 42 41 40 39 38 37 36 35 34 33 32 


BASE(24-31) 

G 

B 

0 

A 

V 

L 

LIMIT 

(16-19) 

1 

D 

P 

L 

S 

0 

TYPE 

BASE(16-23) 

BASE(0-15) 

LIMIT(0-15) 


31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 876 8 43210 


그림 4-2. 토막서술자형식 

보통 GDT 는 하나만 정 의한다. 반면에 각 프로쎄 스는 GDT 에 들어있는 토막외 에 
토막이 더 필요한 경우 자신만의 LDT 를 가질수 있다. 주기억기 에서 GDT 가 위치한 주 
소는 gdtr 처리기 등록기에 현재 사용하는 LDT 의 주소는 ldtr 처리기등록기에 들어있다. 

각 토막서술자는 다음 마당으로 구성된다. 

• 토막이 시 작하는 선형 주소를 담는 32bit Base 마당 

• 과립도 (granularity) 를 나타내는 G 기발, 이 기발이 0 이면 토막크기는 B 단위 
이고 1 이면 4096B 를 곱한 크기가 된다. 

• 토막길이를 지정하는 20bit Limit 마당 (그가 0 이면 토막크기는 1B 에서 1MB 
까지 될수 있고 G 가 1 이면 4kB 에서 4GB 까지 될수 있다. 

• 체 계 기 발 S 가 0 이 면 토막은 핵 심 부자료구조체 를 포함하는 체 계토막이 고 1이 면 
일반적 인 코드나 자료를 포함하는 토막이 다. 

• 토막의 종류와 접근권한을 나타내는 4bit 크기의 Type 마당 
많이 사용하는 토막서술자종류는 다음과 갈다. 

o 코드토막서술자 

토막서술자는 코드토막을 나타낸다. GDT 나 LDT 어디에나 있을수 있다. 

이 서술자는 S 기발은 1로 설정된다. 

o 자료토막서술자 

토막서술자는 자료토막을 나타낸다. GDT 나 LDT 어디에나 있을수 있다. 이 서술 
자의 S 기발은 1로 설정된다. 탄창토막은 일반 자료토막으로 실현한다. 

o 작업상태토막서술자 

토막서술자는 처 리기등록기의 내용을 저장하기 위해 사용하는 작업상태토막 (TSS : 
Task State Segment) 을 나타낸다. 

GDT 에만 있을수 있다. 해 당 프로쎄스가 현재 CPU 에서 실행중인가 하는 여부에 따 
라 Type 마당의 값이 11 이나 9 가 된다. 이 서술자의 S 기발은 0 으로 설정한다. 

o 국부서 술자표서 술자 

토막서술자는 LDT 를 포함하는 토막을 나타낸다. GDT 에만 있을수 있으며 Type 마 
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당의 값은 2이다. 이 서술자의 S 기발은 0으로 설정한다. 다음 80 x 86 처리기에서 토막서술 
자가 GDT 에 있는지 아니 면 프로쎄 스의 LDT 에 있는지 알아내 는 방법 을 설명 한다. 

• 토막에 대한 접근을 제한하는데 사용하는 2 bit 크기의 서술자특권준위 
( DPL ： descriptor Pivilege Level ) 마당 

이 마당은 해당 토막에 접근하는데 필요한 최소 CPU 특권준위를 나타낸다. 따라서 
DPL 이 0인 토막은 현재특권준위 ( CPL ) 가 0일 때 즉 핵심부방식에서만 접근할수 있다. 
한편 DPL 이 3인 토막은 모든 CPL 에서 접근할수 있다. 

• Segment - Present 기발로서 토막이 현재 주기 억기에 없으면 0으로 설정 한다. Linux 
에는 토막을 통채로 디스크에 교체하여 넣지 않기때문에 이 마당을 항상 1로 설정한다. 

• 토막이 코드를 포함하는지 자료를 포함하는가에 따라 D 와 B 기발이 추가된다. 

이 기발의 의미는 두 경우에 따라 조금 다른데 기본적으로는 토막편위를 나타내는데 
사용하는 주소가 32 bit 면 1로, 16 bit 면 0으로 설정한다. 

• 예약된 비트 (53) 는 항상 0으로 설정한다. 

• 조작체계 가 사용할수 있는 AVL 기 발. Linux 에서는 이 기 발을 무시 한다. 

3) 토막서술자에로의 빠른 접근 

앞에서 론리주소는 16 bit 크기의 토막선택기와 32 bit 크기의 편위로 구별되며 토막등 
록기는 토막선택기만 저장한다고 언급하였다. 

80 x 86 처리기는 론리주소를 선형주소로 빠르게 변환하려고 프로그람화가능한 토막등 
록기 여 섯 개 각각에 대 해 프로그람불가능한 등록기 (nonprogrammable register ) 즉 
프로그람작성자가 설정할수 없는 등록기를 추가로 제공한다. 

이 프로그람화가 불가능한 등록기는 각각 자신과 관련된 토막등록기에 들어있는 토막 
선택기가 지정한 8 B 크기의 토막서술자를 포함한다. 토막선택기를 토막등록기에 적재할 
때마다 해당 토막서술자를 기억기에서 꺼내여 대응하는 프로그람불가능한 등록기에 적재 
한다. 이때부터 이 토막을 참조하는 론리주소를 주기억기에 저장된 GDT 나 LDT 에 접근 
하지 않고도 변환할수 있다. 처리기는 토막서술자를 포함한 CPU 등록기를 직접 참조할수 
있기때문이다. 토막등록기의 내용이 바뀔 때에만 GDT 나 LDT 에 접근할 필요가 있 
다. (그림 4-3 참고) 각 토막선택 기 는 다음과 같은 마당을 포함한다. 

• GDT 나 LDT 에 들어있는 토막서 술자입 구를 가리 키 는 13 bit 크기 의 색 인 

• 표지 시 자 ( TI : Table Indicator ) 기 발 

토막서 술자가 GDT 에 있는지 ( TI =0), LDT 에 있는지 ( TI =1) 를 나타낸 다. 

• 2 bit 크기 의 요청 특권준위 ( RPL : Requested Privilege Level ) 마당 

해당 토막선택기를 cs 등록기에 적재하면 이 값이 현재특권준위 

(Current Privilege Level ) 가 된다. 
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그림 4-3. 토막선택기와 토막서술자 


토막서 술자는 8 B 크기이 므로 토막선택 기 의 웃자리 13 bit 색 인값에 8을 곱해 서 GDT 
나 LDT 에 있는 상대주소를 계산할수 있다. 례를 들어 GDT 가 0 x 00020000 에 있고 
토막선택기가 가리키는 색인이 2이면 해당하는 토막서술자의 주소는 
0 x 00020000+(2 x 8), 즉 0 x 00020010 이 된다. 

GDT 의 첫번째 입구는 항상 0으로 설정 한다. 이것은 토막선택기로 0을 지정하는 
론리주소를 잘못된 주소로 만들어 처리기례외를 발생시키도록 한다. GDT 에 저장할수 
있는 최 대 토막서 술자의 개수는 8191, 즉 2 13 -1개 이다. 

RPL 마당은 자료토막에 접근할 때 처리기 특권준위을 선택적으로 약화시키는데 사 
용할수도 있다. 

빈 지 적 자는 프로그람작성 에서 흔히 하는 실수이 다. 특히 지 적자와 기 억 기할당에 
관련해 서 많이 일 어난다. 따라서 핵 심부코드에 있을수 있는 이 런 실수를 감촉할수 있도 
록 주소공간의 시작부분을 사용하지 못하게 만들어서 이 령역에 접근하는 경우 례외를 
발생하게 만드는것이다. 

4) 토막화유니트 

그림 4-4 는 론리주소를 선형주소로 변환하는 과정을 자세히 보여준다. 토막화유니 
트는 다음과 갈은 일을 한다. 

• 토막선택기의 TI 마당을 검사하여 토막서술자가 어떤 서술자표에 들어있는가를 
확인한다. TI 마당은 서 술자가 GDT 에 있는지 (이 경우 토막화유니트는 gdtr 등록기 에서 
GDT 의 시 작선형 주소를 가져온다. ) 아니면 현재 활성화된 LDT 에 있는지 (이 경우 토막 
화유니트는 ldtr 등록기에서 LDT 의 시작선형주소를 가져온다.)를 나타낸다. 

• 토막선택기의 Index 마당으로 토막서술자의 주소를 계산한다. Index 마당에 8(토 
막서술자의 크기)을 곱한 값을 gdtr 이 나 ldtr 등록기의 내용에 더한다. 
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• 토막서술자의 Base 마당에 론리주소의 편위를 더해서 선형주소를 엄는다. 

토막등록기와 관련된 프로그람불가능한 등록기로 하여 앞의 두 작업은 토막등록기가 
바뀐 경우에만 수행 하면 된다. 


Gdt 또는 此 선형 주소 



3. Linux 에서의 토막화 

80 x 86 극소형 처 리 기는 프로그람작성 자가 응용프로그람을 보조루린이 나 대 역 자료령역， 
국부자료령역 같은 론리적인 부분으로 쪼갤수 있도록 토막화라는 기법을 지원한다. 

그러나 Linux 는 토막화를 매우 제한적으로 사용한다. 사실 토막화와 페지화는 둘 
다 프로쎄스의 물러주소공간을 쪼개는데 사용하기때문에 어느 정도 중복되는 측면도 있 
다. 토막화가 각 프로쎄스에 다른 선형주소공간을 할당하는데 대해 폐지화는 똑같은 선 
형주소공간을 다른 물리주소공간과 배치해준다. Linux 는 다음과 같은 리유때문에 토막 
화보다는 폐지화를 먼저 호출한다. 

• 모든 프로쎄스가 똑같은 토막등록기값을 가지면 즉 모든 프로쎄스가 똑같은 선형 
주소공간을 공유하면 기 억 기관리 가 더 간단해 진다. 

• Linux 설계의 목적중 하나는 일반적인 다른 구조 ( architecture ) 와 호환하게 하 
는것 인데 RISC 구조에서는 토막화를 매우 제 한적으로 지원한다. 

Linux 에서는 80 x 86 구조에서 필요로 하는 경우에만 토막화를 사용한다. 모든 프로 
쎄스가 똑같은 론리주소를 사용하기때문에 정의해야 하는 토막의 개수는 매우 적으며 모 
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든 토막서술자를 대역서술자표 ( GDT ) 에 저장할수 있다. GDT 는 gdt _ table 이라는 배렬 
로 구성 되 여있고 명태라는 변수로서 참조한다. 

이러한 기호는 《 arch /1386/ kernel / heads 》 파일에서 정의 하고있다. 

핵심부는 국부서술자표 ( LDT ) 를 사용하지 않지만 프로쎄스가 자기만의 LDT 를 만 
들수 있는 modify _ ldt () 체계호출을 제공한다. 이것은 토막기반의 MS Windows 용 응 
용프로그람을 실행 하는 Wine 과 같은 응용프로그람에 유용하다. 

다음은 Linux 에서 사용하는 토막의 목록이다. 

o 핵심부코드토막 GDT 에 있는 이 토막서술자의 매 마당값은 다음과 같다. 

◦ Base = 0 x 00000000 

◦ Limit = Oxfffff 

o G (과립 도기 발) = 1，토막크기 는 폐 지단위 이 다. 

o S (체계기 발) = 1, 일반코드나 자료토막이 다. 

◦ Type = Oxa , 읽기 및 쓰기 가능한 자료토막이다. 

o DPL (서술자특권준위) = 0, 핵심부방식을 나타낸다. 

o D / B (32 bit 주소기발) = 1, 32 bit 편위주소를 나타낸다. 

따라서 이 토막의 선형 주소범위는 0에서 2 32 -1이 다. S 와 Type 마당은 읽고 실행할 
수 있는 코드토막이라는것을 나타낸다. DPL 값이 0이므로 핵심부방식에서만 접근할수 
있 다. 

이 에 해 당하는 토막선택 기는 _ KERNEL _ CS 마크로로 정의되 여있다. 핵심부가 이 
토막을 가리키고 싶을 때에는 마크로가 만들어내는 값을 cs 등록기에 저장만 하면 된다. 

o 핵심부자료토막 GDT 에 있는 해당 토막서술자의 매 마당값은 다음과 같다. 

■o Base =0 x 00000000 
0 Limit =0 xfffff 

b G (과립 도기 발)=1, 토막크기는 폐지단위 이 다. 

0 S (체계기발)=1, 일반코드나 자료토막이 다. 
o Type =2, 읽기 및 쓰기 가능한 자료토막이다. 

O DPL (서술자특권준위)=0, 핵심부방식을 나타낸다. 
o D / B (32 bit 주소기발)=1, 32 bit 편위주소를 나타낸다. 

이 토막은 읽고 쓸수있는 자료토막임을 나타내는 Type 마당을 제외하고 핵심부코드 
토막과 동일하다. (사실 이것들의 선형주소공간도 서 로 겹친다.) 이 에 해 당하는 토막선택 
기 는 _ KERNEL _ DS 마크로로 정 의 하고있 다. 

o 사용자방식에 있는 모든 프로쎄스가 공유하는 사용자코드토막 

GDT 에 있는 해당 토막서술자의 각 마당값은 다음과 같다. 
o Base =0 x 00000000 
田 Limit =0 xfffff 
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d G (과립도 기발)=1, 토막크기는 폐지단위이다. 

O S (체계 기발)=1, 일반코드나 자료토막이다. 

O Type = Oxa , 읽기 및 실행 가능한 코드토막이 다. 
o DPL (서술자특권준위)=3, 사용자방식을 나타낸다. 
o D / B (32 bit 주소기발)=1, 32 bit 편위주소를 나타낸다. 

S 와 DPL 마당은 이 토막이 체계토막이 아니며 특권준위가 3이라는것을 나타낸다. 
따라서 핵심부방식과 사용자방식에서 모두 이 토막에 접근할수 있다. 해당 토막선택기는 
_ USER _ CS 마크로로 정 의 하고있 다. 

o 사용자방식에 있는 모든 프로쎄스가 공유하는 사용자자료토막 
GDT 에 있는 해당 토막서술자의 매 마당값은 다음과 같다. 
o Base=OxOOOOOOOO 
o Limit = Oxfffff 

° G (과립 도기 발) =1, 토막크기 는 페 지 단위 이 다. 

° S (체계기발)=1, 보통 코드나 자료토막이다. 

° Type =2, 읽기 및 쓰기 가능한 자료토막이다. 

° DPL (서술자특권준위)=3, 사용자방식을 나타낸다. 
o D / B (32 bit 주소기발)=1, 32 bit 편위주소를 나타낸다. 

이 토막은 앞서 나온 사용자코드토막과 겹친다. 두개는 Type 값만 제외하고 동일하 
다. 해 당 토막선택기는 _ USER_DS 마크로로 정의하고있다. 
o 각 처리기별 작업상태 토막 ( TSS ) 

각 TSS 에 해당하는 선형주소공간은 핵심부자료토막에 해당하는 선형주소공간의 일 
부이 다. 모든 TSS 는 init _ tss 배 럴에 차례로 저장된다. 

n 번째 CPU 용 TSS 서술자의 Base 마당은 init _ tss 배럴의 n 번째 원소를 가리킨다. 
TSS 토막의 크기가 236 B 이기때문에 G (과립도)기발은 0으로， Umit 기발은 Oxeb 로 설정 
된다. Type 마당은 9나 11로 설정되고(유효한 32 bit TSS ) 사용자방식프로쎄스가 TSS 
토막에 접근하면 안되기때문에 DPL 은 0으로 설정된다. 

o 보통 모든 프로쎄스가 공유하는 기정 국부서술자표 (default LDT ). 

이 토막은 default _ ldt 변수에 들어있 다. 기 정 LDT 에 는 빈 토막서 술자 (null 
segment descriptor ) 로 이루어진 입구 하나만 들어있다. 각 처 리기마다 자기만의 
LDT 토막서술자가 있는데 이것은 보통 공용으로 사용하는 기본 LDT 토막을 가리킨다. 
이 토막서술자의 Base 마당은 default _ ldt 의 주소로, Limit 마당은 7로 설정한다. 실제 
로 LDT 를 필요로 하는 프로쎄스를 실행할 때 에는 GDT 에서 이 프로쎄 스를 실행하는 
CPU 에 해 당하는 LDT 서술자를 프로쎄스가 만든 LDT 에 대한 서술자로 대체한다. 
o 고급전원관리 ( APM : Advanced Power Management ) 지 원과 관련한 토막 4개 
APM 은 체계의 전원을 관리하는 BIOS 함수들로 이루어진다. 핵심부가 APM 을 지 
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원하면 GDT 에 있는 4개의 입구는 APM 관련핵심부함수를 포함하는 두 자료토막 및 두 
코드토막의 서술자를 저장한다. 

리눅스의 GDT 토막선택기 

0x00 


0x10 (_KERNEL_CS) 
0x18 (_KERNEL_DS) 
0x20 按 ER_CS) 
0x28 ( 一 USER—DS) 


0x40 

0x48 

0x50 

0x58 


빈값 ( null ) 

사용하지 않음 

핵심부 코드 

핵심부 자료 

사용자 코드 

사용자 자료 

사용하지 않음 

사용하지 않음 

오유있는 BIOS 의 

APM 

APM 코드 

APM 16 bit 코드 

APM 자료 

CPU -0 TSS 

CPU -0 LDT 

사용하지 않음 

사용하지 않음 

CPU -1 TSS 

CPU -1 LDT 

사용하지 않음 

사용하지 않음 



그림 4-5. 대역서술자표 ( GDT ) 

결국 그림 4-5 에서 보여주는것처럼 GDT 는 몇가지 공용서술자들과 체계에 있는 각 
CPU 용 토막서술자 한쌍(하나는 TSS 토막용, 다른 하나는 LDT 토막용)을 포함한다. 효 
률적으로 동작하기 위해 GDT 에 있는 몇개의 입구는 사용하지 않으며 이것은 보통과 같 
이 접근하는 토막서술자들이 똑같은 32 B 크기의 하드웨 어캐쉬선로에 있게 한다. 

앞에서 설명했지만 cs 등록기에 저장된 토막선택기의 RPL 마당은 처리기가 사용자방 
식에 있는지 핵심부방식에 있는지를 나타내는 CPU 의 현재 특권준위 ( CPL:Current 
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Privilege level) 를 지정한다. CPL 이 바껄 때 일부 토막등록기도 갱신되여야 한다. 
례를 들어 CPL 이 3( 사용자방식)일 때 ds 등록기는 사용자자료토막의 토막선택기를 포함 
해야 하지만 CPL 이 0 일 때에는 핵심부자료토막의 토막선택기를 포함해야 한다. 

ss 등록기도 이와 비슷하다. 이 등록기는 CPL 이 3 일 때 사용자자료토막안에 존재하 
는 사용자방식 탄창을 참조해 야 하지 만 CPL 이 0 일 때 에는 핵심부자료토막안에 존재하는 
핵 심 부방식탄창을 참조해 야 한다. Linux 는 사용자방식 에 서 핵 심 부방식 으로 전환할 때 
항상 ss 등록기 가 핵 심 부자료토막의 토막선택 기 를 포함하는가를 확인한다. 

4. 하드웨어폐지화 

페 지 화유니 트 (paging unit) 는 선형 주소를 물리 주소로 변환한다. 페 지 화유니 트는 
요청한 접근종류가 해당 선형주소의 접근권한에 맞는가를 검사한다. 기억기에 잘못 접근 
한 경 우에 는 페 지 오유새 치 기 (page fault exception) 가 발생 한다. 

효률적 인 관리 를 위 해 선형 주소를 폐 지 (page) 라는 고정 된 크기 로 나눈다. 한 폐 지 
에 있는 련속된 선형주소는 련속된 물러주소로 배치된다. 이런식으로 핵심부는 페지내의 
모든 선형주소마다 물리주소와 접근권한을 지정하지 않고 페지마다 지정 한다. 일반적 인 
관습대로 선형주소집합을 가리키거 나 이 주소그룹에 들어있는 자료를 가리키는 경우 모 
두《폐지》라는 용어를 사용하기로 한다. 

페 지 화유니 트는 RAM 의 모든 령 역 이 페지틀 (page frame) , 물리 페 지 (physical 
page) 라는 고정된 길이로 나뉘 어있다고 생각한다. 매 패지틀마다 폐지 가 하나씩 들어 
간다. 즉 폐지틀의 크기와 폐지크기는 일치한다. 폐지틀은 주기억기의 구성요소이기때 
문에 저장령역이라고 할수 있다. 그러나 패지와 페지틀을 구별할수 있어야 한다. 폐지는 
단순히 자료블로크로서 어느 패지틀이나 디스크에도 저장할수 있다. 

선형주소를 물리주소로 배치하는 자료구조를 페지표 (page table) 라고 한다. 폐지표 
는 주기억 기 에 있 으며 핵 심 부는 폐 지 화유니 트를 사용하기 전에 페 지 표를 정 확히 초기 화 
해 야 한다. 

80x86 처리기에서는 조종등록기 crO 의 PG 기발을 설정 하여 페 지화를 가능하게 한다. 
PG=0 이면 선형주소는 곧바로 물리주소가 된다. 

1) 정규폐지화 

80386 부터 Intel 처리기의 폐지화유니트는 4kB 크기의 폐지를 사용한다. 

32bit 크기 인 선형주소는 다음 세 마당으로 나누어진다. 

등록부 

웃자리 lObit 

표 

중간 lObit 

편위 
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마지막 12bit 

선형주소변환은 두단계로 이루어지며 매 단계마다 일종의 변환표를 사용한다. 첫째 
단계 에서 사용하는 변환표를 폐 지 등록부 (Page Directory) 라고 하고 둘째단계 에 서 사용 
하는 표를 페지표 (PageTable) 라고 한다. 이렇게 두 단계를 거치는 리유는 프로쎄스마 
다 펼요한 페지표가 RAM 에서 차지하는 크기를 줄이기 위해서이다. 간단하게 한단계 
페지표를 사용한다고 하면 매 프로쎄스마다 입구 2 2 ° 개를 포함하는(매 입구는 4B 크기이 
므로 4MB RAM 이 필요하다.) 페지표가 필요할것이다. (프로쎄스가 4GB 의 선형주소공 
간을 모두 사용하는 경우) 두 단계 페지표를 사용하면 실제로 프로쎄스가 사용하는 가 
상기억기령역에 대해서만 페지표가 필요하므로 기억기를 절약할수 있다. 

동작중인 모든 프로쎄스는 자기의 폐지등록부를 가져 야 한다. 그렇지만 한번에 프로 
쎄스의 모든 폐지표용으로 기억기를 할당할 필요는 없다. 실제 프로쎄스가 필요로 할 때 
에만 페지표용기억기를 할당하는것 이 더 효률적 이 다. 

현재 사용중인 폐지등록부의 물리주소는 조종등록기 cr3 에 들어있다. 선형주소내의 
등록부마당은 해 당 페 지 표를 가리 키 는 폐 지 등록부의 입 구를 결 정한다. 주소의 표마당은 
해당 폐지를 포함하는 페지틀의 물리주소를 담은 페지표의 입구를 결정한다. 편위마당은 
폐지틀에서 상대위 치를 나타낸다. (그림 4-6 참고) 편위의 길이는 12bit 이기때문에 각 
페지는 4096B 의 자료를 가전다. 

등록부와 표 마당은 모두 lObit 이다. 따라서 패지등록부와 페지표는 각각 1024 개 
의 입구를 포함할수 있다. 32bit 주소에서 짐 작하는것처 럼 페지등록부 하나로 기 억기요소 
주소 1024*1024*4096=2 32 개 를 지정할수 있다. 

선형 주소 


31 22 21 12 11 



그립 4-6. 80 x 86 처리기의 페지화 
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페지등록부와 페지표의 입구구조는 똑같다. 매 입구에는 다음과 갈은 마당이 있다. 

4 Present 기발 

이 기 발이 1이 면 이 입 구가 참조하는 폐 지 (또는 폐 지 표)는 주기 억 기 에 있 다. 이 기 
발이 0이면 폐지가 주기억기에 없으며 입구에 있는 다른 비트는 조작체계의 필요에 따 
라 다른 용도로 사용할수 있다. 주소변환을 하는데 필요한 페지표나 폐지등록부입구의 
Present 기발이 0인 경우 페지화유니트는 선형주소를 조종등록기 cr 2 에 저장한 후 례외 
번호 14번 즉 폐지오유 례외를 발생시킨다. 

泰 페지틀물리주소의 웃자리 20 bit 를 포함한 마당 

각 페지틀의 용량은 4 kB 이기때문에 페지틀의 물러주소는 4096의 배수여야 한다. 따 
라서 물리주소의 아래자리 12 bit 는 항상 0이다. 이 마당이 폐지등록부를 참조하는 경우 
폐지틀에 페지표가 들어가며 페지표를 참조하는 경우에는 자료가 있는 패지가 들어간다. 

♦ Accessed 기 발 

페지화유니트는 해당 폐지틀에 접근할 때마다 이 기발을 1로 설정한다. 조작체계는 
이 기발을 교환하여 내보내기 (swap out ) 할 페지를 선택하는데 사용할수 있다. 페지화 
유니트는 이 기발을 절대로 지우지 않는데 이것은 조작체계의 몫이다. 

‘ Dirty 기발 

페 지 표입 구에 만 적 용된 다. 페 지 화유니 트는 폐 지 틀에 쓰기 작업 을 수행할 때 마다 이 
기발을 1로 설정한다. Accessed 기발과 마찬가지로 조작체계는 이 기발을 바꾸어 내보 
내기할 페지를 결정하는데 사용할수 있다. 폐지화유니트는 이 기발을 절대로 지우지 않 
으며 이것은 조작체계가 할 일이다. 

‘ Read / Write 기발 

이 기발에는 폐지나 폐지표의 접근권한(읽기/쓰기 또는 읽기)이 있다. 

♦ Usef/Supervisor 기 발 

페 지 나 페 지 표에 접 근하는데 필 요한 특권 ( privilege ) 준위 를 나타낸 다. 

泰 PCD 와 PWT 기발 

하드웨어캐쉬가 폐지나 페지표를 다루는 방법을 조종한다. 

‘ Page Size 기 발 

페지등록부입구에만 해당한다. 이 기발이 1이면 입구는 2 MB 또는 4 MB 크기의 페 
지틀을 가리킨다. 

‘ Global 기발 

페지등록부입구에만 해당한다. 이 기발은 펜러움프로 CPU 에서 등장했으며 자주 
사용하는 폐지가 TLB 캐쉬에서 사라지는것을 막기 위한것이다. 등록기 cr 4 의 
PGE(Page Global Enable ) 기발이 설정된 경우에만 동작한다. 

2) 확장폐지 화 

80 x 86 극소형 처 리 기 는 펜 리 움모형 부터 폐 지 틀의 크기 가 4 kB 대 신 4 MB 가 될 수 있 
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는《 확장패 지 화 (extended paging) 》를 도입 하였 다. (그림 4-7 참고) 


선형 주소 

31 2221 0 



그림 4-7. 확장페지화 


앞에서 본바와 같이 폐지등록부입구의 Page Size 기 발을 1 로 설정하면 확장페지화 
가 가능해진다. 확장페지화를 사용하면 페지화유니트는 32bit 선형주소를 다음과 갈은 두 
마당으로 구분한다. 

등록부 

웃자러 lObit 

편위 

나머지 22bit 

확장폐지화에서 시용하는 폐지등록부입구는 다음 사항을 제외하면 일반적인 페지화 
와 갈다. 

• Page Size 기발을 1 로 설정해야 한다. 

• 20bit 물리주소 마당중 웃자리 lObit 만 의미가 있다. 이것은 물리주소를 4MB 
단위로 정렬하므로 주소의 아래 자리 22bit 는 0 이 되기 때문이다. 

cr4 처 리기등록기의 PSE 기 발을 설정하면 확장페지화가 정규페지화와 공존할수 있다. 
확장페지화는 크기가 아주 큰 련속된 선형주소를 이에 대응하는 물리주소로 그대로 변환 
할 때 사용한다. 이 경우 핵심부는 중간에 별도의 페지표를 구성할 필요가 없으므로 기 
억기를 아끼고 TLB 입구를 보존할수 있다. 

3) 하드웨어보호방책 

페 지 화유니트와 토막화유니 트는 서 로 다른 보호방책 을 사용한다. 80x86 처 리 기 에서 
는 토막마다 네 단계의 특권준위을 지정할수 있다. 그러나 폐지와 페지표는《정규폐지 
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화》에서 언급한 User / Supervisor 기발로 특권을 조종하기때문에 두가지 특권준위만 
사용할수 있다. 이 기발이 0이면 CPL 이 3보다 낮은 경우(즉 Linux 에서 처리기가 핵 
심부방식에 있을 때)에만 해당 페지에 접근할수 있으며 이 기발이 1이면 해당 폐지에 
항상 접근할수 있다. 

나아가서 토막에는 세 종류의 접근권한(읽기, 쓰기, 실행)을 지정할수 있지만 폐지 
에는 읽기와 쓰기 두 종류의 접근권한만 설정할수 있다. 패지등록부입구나 페지표입구의 
Read / Write 기발이 0인 경우 해당 폐지표나 폐지는 읽기만 가능하고 기발이 1인 경우에 
는 읽기와 쓰기가 모두 가능하다. 

페지화가 어떻게 동작하는가를 쉽게 리해하기 위해 다음 례를 살찌보자. 

핵심부가 어떤 프로쎄스에 0 x 20000000 부터 0 x 2003 ffff 까지 선형주소공간을 할당 
하였다고 하자. 이 주소공간은 정확히 64개의 패지로 이루어진다. 사실 이중 일부는 주 
기억기에 없을수도 있다. 여기서 관심을 둘 부분은 페지표입구의 나머지 마당이다. 

먼저 프로쎄스에 할당한 선형주소의 웃자러 lObit 부터 시작하자. 폐지화유니트는 이 
것 을 등록부마당으로 해 석한다. 주소의 웃자리 lObit 는 모두 2로 시 작해 서 나머 지 는 0 
이며 이 주소범위에 있는 모든 주소의 웃자리 lObit 는 똑같은 값 즉 0 x 080, 10진수로 
는 128을 가진다. 

따라서 모든 주소의 등록부마당은 프로쎄스에 할당된 폐지등록부의 129번째 입구를 
참조한다. 해 당 입 구에는 프로쎄 스에 할당된 페 지 표의 물리 주소가 있어 야 한다. (그림 
4-8 참고) 프로쎄스에 다른 선형주소를 할당하지 않았다면 폐지등록부의 남은 입구 1023 
개는 모두 0으로 채운다. 

다음에 보지만 선형주소공간은 3 GB 까지 사용할수 있으나 사용자프로쎄스는 이 공 
간의 일부만 접근할수 있다. 

중간10비트(즉 표 마당)의 값은 0에서 0 x 03 f 10진수로는 0에서63까지의 범위에 해 
당한다. 따라서 페지표의 처음 64개 입구만 중요하고 나머지 입구 960개는 0으로 채운다. 


패지등록기 패지표 


1023(0x3 任 ) 

八 \ 

1023(0x3 任 ) 




64(0x040) 




63(0x03f) 


128(0x080) 




0 

V ) 

1 、、、之 

L _ ) 


그림 4-8. 페지화의 례 
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프로쎄스가 선형주소 0 x 20021406 에 있는 값을 읽으러고 하면 페지화유니트는 이 
주소를 다음과 같이 처 리한다. 

1. 등록부마당 0 x 80 은 폐지등록부의 0 x 80 번째 입구를 선택한다. 여 기 에는 프로쎄 
스가 사용하는 폐지와 관련된 페지표의 위치가 들어 있다. 

2. 표 마당 0 x 21 은 폐지 표의 0 x 21 번째 입 구를 선택한다. 여 기 에는 원하는 폐지 가 
있는 폐지틀의 위치가 들어 있다. 

3. 마지 막으로 편위 마당은 0 x 406 이므로 폐 지틀의 0 x 406 편위 에 있는 값을 선택한다. 

페 지 표의 0 x 21 번째 입구의 Present 기 발이 0이 라면 패지 가 주기억기 에 존재 하지 않 

으므로 페지 화유니트는 선형주소를 변환하는 과정 에서 페지례외를 발생시킨다. 프로쎄 스 
가 0 x 20000000 에서 0 x 2003 ffff 범위밖에 있는 선형주소에 접근하는 경우에도 프로쎄스 
에 할당되지 않은 페지표는 0으로 채워지고 이것들의 Present 기발은 모두 0이므로 마 
찬가지로 폐지례외가 발생한다. 

4) 3단계폐지화 

32 bit 극소형처리기는 2단계페지화 ( two-level paging ) 를 사용한다. 그러나 최근에 
HP 의 Alpha 나 Intel 의 Itanium , SUN 의 UltraSPARC 같은 일부처리기에서 64 bit 구 
성 방식를 도입 하였다. 

이 경우 2단계페지화가 더는 적합하지 않고 3단계폐지화로 단계를 높여야 한다. 그 
리유를 생각해보자. 

합리 적 이면서 가능한 큰 폐지크기를 생각해 보자. (빈번히 폐지를 디스크에서 읽 어들 
이고 써야 한다는것을 고려해야 한다.) 페지크기로 16 kB 를 선택해보자. lkB 는 주소 2 1 
0 이므로 16 kB 는 주소 2 14 이다. 따라서 편위마당의 길이는 14 bit 가 된다. 그러면 남은 
선형주소의 50 bit 를 표마당과 등록부마당으로 나누어 야 한다. 이 두 마당을 각각 25 bit 
로 정하면 각 프로쎄스의 페지등록부와 페지표는 2 25 개 즉 3200만개가 넘는 입구를 포 
함하게 된다. 

RAM 이 아무리 눅어도 폐지표를 저장하는데 이렇게 많은 기억기를 랑비할수는 
없을것 이 다. 그래 서 HP 의 Alpha 극소형 처 리 기 (시 장에 처 음으로 출하된 64 bit CPU 중 
하나이다.)는 다음과 갈은 해결책을 선택하였다. 

• 페지틀의 크기는 8 kB 이다. 따라서 편위마당의 길이는 13 bit 이다. 

• 주소에서 아래자러 43 bit 만 사용한다. (웃자러 21 bit 는 항상 0으로 설정 한다. ) 

• 3단계 페지표를 사용하여 주소의 나머지 30 bit 를 lObit 세개로 나눈다. 따라서 
폐지표는 앞에서 본 2단계페지화방책을 사용할 때와 마찬가지로 입구 2 1 ° =1( 犯4개를 포 
함한다. 

후에 《 Linux 폐지화》에서 보지만 Linux 를 설계한 사람은 Alpha 구성방식에서 
착상하여 패지모형을 구성하기로 하였다. 


346 


透資邊 @資變©^ 


채 4 장. 71영71 


물리주소확장페지화수법 

처리기가 지원하는 RAM 의 최대크기는 주소모선에 련결된 주소단자의 개수에 따라 
결정된다. 80386부터 펜리움까지 조금 오래된 Intel 처리기는 32 bit 크기의 물리주소를 
사용하였다. 이런 체계에서는 리론적으로 RAM 을 4 GB 까지 설치할수 있지만 실제로는 
사용자방식 프로쎄 스에 도 선형 주소공간을 할당해 야 하기 때 문에 핵 심 부는 1 GB 이 상의 
RAM 에 직접접근할수 없다. 이점은 후에 《 Linux 페지화》에서 본다. 

그렇 지 만 대 형봉사기 에 서 실 행 하는 일부 응용프로그람은 1 GB 이 상의 RAM 을 필 요 
로 하는데 이것은 최근 Intel 이 32 bit 80386구성방식에서 지원할수 있는 RAM 의 크기 
를 늘이게 하였다. 

Intel 은 처리기의 주소단자개수를 32개에서부터 36개로 늘여서 이러한 요구에 대응 
하였다. 펜리움 pro 부터 나온 모든 처리기는 이제 RAM 을 2 36 =64 GB 까지 다룰수 있다. 
그렇지만 이렇게 늘어난 물리주소범위는 32 bit 선형주소를 36 bit 물리주소로 바꾸는 새로 
운 수법을 적용해 야만 사용할수 있다. 

Intel 은 펜 리 움 pro 처리기 부터 물리 주소확장 (Physical Address Extension ) 이라는 
수법을 도입하였다. 펜리움 m 처리기부터 《 폐지크기확장 ( PSE 036, Page Size 
Extension ) > 이 라는 또 다른 수법 이 등장했는데 Linux 에서는 이것을 사용하지 않으므 
로 여기서도 취급하지 않는다. 

cr 4 조종등록기 의 물리 주소확장 ( PAE ) 기 발을 설정하면 PAE 가 활성 화된 다. cr 4 폐 지 
등록부입 구의 폐 지 크기 ( PS ) 기 발을 설 정하면 큰 폐 지 크기 ( PAE 를사용하는 경 우 2 MB ) 를 
사용할수 있다. 

Intel 은 PAE 를 지원하기 위해 다음과 같이 페지화수법을 수정하였다. 

• RAM 64 GB 를 개별폐지틀 2 24 개로 나누고 페지표입구의 물리주소마당길이를 
20 bit 에서 24 bit 로 늘였다. PAE 페지표의 매 입구마다 12 bit 의 기발이 필요하고 물리주 
소로 24 bit 가 필요하므로 합처서 36 bit 가 필요하다. 따라서 페지표입구의 크기가 32 bit 
에 서 64 bit 로 즉 두배 로 늘어 났다. 그 결과 4 kB 의 PAGE 패지 표에 는 1024개 가 아닌 
512개 의 입 구가 들어간다. 

• 폐지등록부지적자 표 ( PDPT:Page Directory Pointer Table ) 이라는 새로운 
단계의 페지표를 추가하였다. 여기에는 64 bit 입구 4개가 들어간다. 

• cr 3 조종등록기에는 27 bit 크기의 폐지등록기지적자표 ( PDPT ) 의 시작주소마당이 
있다. PDPT 는 처음 4 GB RAM 에 저장되고 32 B (2 5 ) 의 배수로 정렬되므로 이 표의 
시 작주소를 나타내는데는 27 bit 면 충분하다. 

• 선형주소를 4 kB 폐지로 배 치할 때(폐지등록부입구의 PS 기발은 0) 선형주소의 
32 bit 를 다음과 같이 해석한다. 

cr 3 

PDPT 를 가러킨다. 
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31-30 bit 

PDPT 에 들어있는 입 구 4개 중 하나를 가리 킨다. 

29-2 lbit 

폐지등록부에 있는 입구 512중 하나를 가러킨다. 

20-12 bit 

페지 표에 있는 입구 512개중 하나를 가러 킨다. 

11 -Obit 

4 kB 폐지에서의 편위 

• 선형주소를 2 MB 폐지로 배 치할 때 (폐지등록부입구의 PS 기발은 1) 선형주소의 
32 bit 를 다음과 같이 해석한다. 

cr 3 

PDPT 를 가리킨다. 

31-30 bit 

PDPT 에 들어있는 입 구 4개 중 하나를 가리 킨다. 

29-2 lbit 

페지등록부에 있는 입구 512개중 하나를 가러킨다. 

20-0 bit 

2 MB 패지에서의 편위 

일단 cr 3 을 설정하면 4 GB 까지의 RAM 을 접근할수 있다. RAM 을 이보다 크게 사 
용하려 면 cr 3 에 새 로운 값을 지 정하거 나 PDPT 의 내 용을 수정 해 야 한다. 그러 나 PAE 
의 큰 문제는 여전히 선형주소가 32 bit 크기라는 점이다. 즉 프로그람작성자는 RAM 의 
다른 령 역을 접근하는데도 같은 선형주소를 재사용해야 한다. 후에 《RAM 크기가 
4096 MB 이상일 때 최종핵심부페지표》에서 PAE 를 사용할 때 Linux 가 페지표를 어떻 
게 초기화하는가를 간단히 본다. 


5) 하드웨어캐쉬 

현재 극소형처리기의 박자 (clock) 속도는 몇 GHz 에 이르지만 DRAM (Dynamic 
RAM) 소자에 접 근하는데 는 수백 박자가 요구된다. 따라서 피연산자를 RAM 에서 가져 오 
거나 결과를 RAM 에 저장할 때 CPU 는 상당히 오래동안 멈추어 있어야 한다. 

이 려 한 CPU 와 RAM 의 속도차이 를 줄이 려고 하드웨 어 개 쉬 기 억 기 (hardware 
cache memory) 가 등장하였다. 캐쉬는 많이 알고있는 국부성원리 (locality 
principle) 에 기초한다. 이 원리는 프로그람코드와 자료구조 모두에 해당하는것이며 프 
로그람은 순환구조를 가지고 서로 련관된 자료는 련속된 배럴에 몰려있기때문에 가장 최 
근에 사용한 주소와 가까운곳에 있는 주소를 가까운 시간에 사용할 가능성 이 가장 높다 
는것 이 다. 따라서 작고 빠른 기억기에 가장 최근에 사용한 코드와 자료를 넣어두는것 이 
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합리적이다. 이런 목적으로 80 x 86 구성방식에 선로 ( line ) 라는 새로운 단위가 등장하였다. 
이것은 소자에 들어있고 캐쉬를 구성 하는데 사용하는 빠른 SRAM (정적 RAM : Static 
RAM ) 과 느린 DRAM 사이에서 묶음방식 (burst mode ) 으로 전송되는 련속된 바이트 몇 
개로 이루어진다. 

캐쉬는 선로의 부분집 합으로 나누어진다. 캐쉬를 구성할 때 극단적으로 직접배 치 
(direct mapped ) 하는 방법 이 있다. 이때 에는 주기 억기 에 있는 선로를 캐쉬 에서 항상 
완전히 똑같은 위치에 저장한다. 이와 정반대로 캐쉬를 완전조합 (fully associative ) 으 
로 구성하는 방법이 있다. 이 경우 기억기에 있는 모든 선로을 캐쉬의 어느 위치에나 저 
장할수 있다. 

그러나 대부분의 캐쉬는 N - 방향집합 조합 ( N-way set associative ) 으로 구성한다. 
여기서는 주기억기의 어떤 선로이든 캐쉬의 N 선로중 하나에 저장할수 있다. 례를 들어 기 
억기의 한 선로는 2-방향 집합조합 캐쉬에 있는 2개의 다른 선로에 저장할수 있다. 

그림 4-9 에 서 볼수 있는것 처 럼 캐 쉬 유니 트는 페 지 화유니 트과 주기억 기 사이에 위 치 
한다. 캐 쉬 유니 트에 는 하드웨 어 패 쉬 기 억 기 (hardware cache memory ) 와 캐 쉬 조종기 
(cache controller ) 가 들어 있 다. 

캐쉬기억기는 실제로 기억기선로를 저장하고 캐쉬조종기는 매 선로마다 입구 하나 
씩 입구배럴을 포함한다. 매 입구에는 꼬리표와 캐쉬선로의 상태를 나타내는 몇가지 기 
발이 있다. 이 꼬리표는 캐쉬조종기가 선로에 배치된 현재 기억기의 위치를 인식할수 있 
게 해주는 여 러 비트로 이루어 진다. 기 억기 물리주소비트는 보통 세 그룹으로 나누어지 
는데 이중 가장 웃자리비트는 꼬리표에，가운데 비트는 캐쉬조종기집합색인에, 마지막 
비트는 선로의 편위 에 해 당한다. 


cpu 



그림 4-9. 처리기하드웨어캐쉬 

RAM 의 기 억기요소에 접근할 때 CPU 는 물리주소에서 집합의 색 인을 뽑아내여 이 
집 합에 들어있는 모든 선로의 꼬리 표와 물러 주소의 웃자리 비 트를 서 로 비 교한다. 그래 서 
주소의 웃자리비트와 꼬리표가 같은 선로을 발견하면 CPU 는 캐쉬명중 (cache hit ) 을 
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하고 그렇 지 않으면 캐 쉬 실패 (cache miss) 가 발생 한다. 

캐쉬명중이 일어나면 캐쉬조종기는 접근류형에 따라 다르게 동작한다. 읽기동작이면 
조종기는 캐쉬선로의 자료를 선택하여 이것을 CPU 등록기에 전송한다. 여기서는 RAM 
에 접근하지 않기때문에 캐쉬체계를 개발한 목적 그대로 CPU 는 시간을 절약할수 있다. 
쓰기 동작인 경 우 조종기 는 쓰기 를 실현하는 두가지 기 본방책 인 직 접 쓰기 (write- 
through) 와 지연쓰기 (write-back) 중 하나를 실현할수 있다. 직접쓰기를 하는 경우 조 
종기는 항상 RAM 과 캐쉬선로에 동시에 쓰기때문에 실질적으로 쓰기동작에 대해서는 
캐쉬를 끄는 효과를 가져온다. 지연쓰기는 직접쓰기보다 즉시적인 효률성을 제공하는데 
이때에는 캐쉬선로만 갱신하고 RAM 내용은 바꾸지 않는다. 응당 후에 쓰기를 한 후 언 
젠가는 RAM 의 내 용을 갱 신해 야 한다. 캐 쉬 조종기 는 CPU 가 캐 쉬입 구를 흘리 기 
(flush) 해 야 하는 명 령을 실행하거 나 FLUSH 하드웨 어신호가 발생 한 경우(보통 캐쉬 실 
패 가 일어난 후)에만 캐쉬선로의 내용을 RAM 에 기록한다. 

캐쉬실패가 발생한 경우 필요하면 캐쉬선로를 RAM 에 저장하고 정확한 선로를 
RAM 에서 패쉬입구로 가져온다. 

다중처리기체계에는 모든 처리기마다 별도의 하드웨어캐쉬가 있으므로 매 패쉬의 내 
용을 동기화하기 위한 별도의 하드웨어회로가 필요하다. 그림 4-10 에서 보는것처럼 각 
CPU 는 자기만의 국부하드웨어캐쉬를 가진다. 여기서는 캐쉬를 갱신하는것이 시간을 더 
많이 필요로 하는 작업이 된다. CPU 는 자기의 하드웨어캐쉬내용을 바물 때마다 다른 
하드웨어캐쉬에 같은 자료가 들어 있는가를 반드시 확인해야 하며 있다면 다른 CPU 에 
캐쉬를 정확한 값으로 갱신하라고 알려주어야 한다. 이런 작업을 종종 캐쉬조사 (cache 
snooping) 라고 한다. 다행히도 이런 작업들은 하드웨어준위에서 이루어지며 핵심부는 
전혀 신경쓰지 않아도 된다. 

캐쉬기술은 빠르게 발전하고있다. 례를 들어 처음 나온 펜리움모형은 소자에 《L1- 
캐쉬》라는 캐쉬 하나만 포함하였다. 이 보다 후에 나온 모형은 소자에 이보다 더 크지 
만 느린 《L2 -캐쉬》라는 다른 캐쉬를 포함한다. 두 캐쉬의 내용을 일치시키는것 역시 
하드웨어준위에서 실현된다. Linux 는 이런 하드웨어의 세세한 내용은 무시하고 캐쉬가 
하나만 있다고 여긴다. 

crO 처리기등록기의 CD 기발은 캐쉬회로를 사용하거나 금지하는데 사용한다. 똑갈은 
등록기에 있는 NW 기발은 캐쉬에 직접쓰기방책을 사용하겠는지 지연쓰기방책을 사용하 
겠는지를 지정한다. 

펜터움처 리기 에 있는 캐쉬의 또 다른 흥미있는 특징은 조작체계 가 매 패지틀마다 다 
른 캐쉬관리방책을 사용할수 있게 하는것이다. 이를 위해 각 폐지등록부와 페지표입구마 
다 기발이 두개 있다. 패지캐쉬끄기 (PCD:Page Cache Disable) 는 해 당 폐지틀에 있 
는 자료에 접근할 때 캐쉬를 사용하겠는가 하는 여부를 정한다. 폐지직접쓰기 (PWT: 
Page Write-Through) 는 해당 패지틀에 자료를 쓸 때 직접쓰기방책을 사용하겠는가 
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지 연쓰기 방책 을 사용하겠 는가를 지 정 한다. Linux 는 모든 폐 지 등록부와 페 지 표입 구의 
PCD 와 PWT 기발을 지운다. 따라서 모든 폐지틀에서 캐쉬를 사용하고 쓰기를 할 때에 
는 항상 지연쓰기방책을 채택한다. 


CPU 0 CPU 1 



6) 변환참조완충기 

범용하드웨 어캐쉬외 에도 80 x 86 처 리기 에는 《 변환참조완충기 ( TLB:translation 
lookaside buffer ) 》라는 다른 종류의 캐쉬가 있어서 선형주소를 변환하는 속도를 높여 
준다. 어떤 선형주소를 처음 사용하는 경우 느린 RAM 에 있는 페지표에 접근해서 해당 
물리주소를 계산한다. 그러면 변환된 물리주소를 TLB 입구에 저장함으로써 앞으로 똑같 
은 선형주소를 참조하는 경우 빠르게 변환할수 있게 한다. 

다중처리기체계에서는 매 CPU 마다 자기만의 TLB 가 있는데 이것을 《국부 
TLB (local TLB ) > 라고 한다. L 1 캐 쉬 와는 반대 로 TLB 입 구들을 같은 곳에 대 한 입 
구를 서로 련결시킬 필요가 없는데 여러 CPU 에서 실행하는 프로쎄스들이 같은 선형주 
소를 사용하더라도 이것이 다른 물리주소와 련결되여있을수 있기때문이다. 

CPU 에 있는 cr 3 조종등록기가 바뀌면 하드웨어는 자동으로 국부 TLB 에 있는 모든 
입구를 무효화한다. 


5. Linux 페지화 


《 3단계 페 지 화》에 서 설 명 한것 처 럼 Linux 는 3단계 페 지 화모형 을 선택 하여 64 bit 구성 
방식에도 적합하다. Linux 는 다음 세 종류의 페지표를 정의하며 그림 4-11 은 이러한 
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Linux 의 페지화모형을 보여준다. 

• 페지 대 역 등록부 (Page Global Directory ) 

• 페지중간등록부 (Page Middle Directory ) 

• 페지표 (Page Table ) 

페지대역등록부는 여러 폐지중간등록부의 주소를 포함하고 폐지중간등록부는 다시 
여러 페지표의 주소를 포함한다. 매 페지표입구는 폐지틀을 가리킨다. 따라서 선형주소 
는 4부분으로 나누어진다. 그림 4-11 에서는 매 부분의 비트수를 표시하지 않았는데 이 
것은 각 부분의 크기는 를퓨터구성방식에 따라 다르기때문이다. 



그림 4-11. 리눅스페지화 모형 

Linux 는 프로쎄스를 다룰 때 페지화에 많이 의존한다. Linux 는 선형주소를 물리 
주소로 자동변환하여 다음과 갈은 설계목적을 달성한다. 

• 매 프로쎄스에 서로 다른 물리주소공간을 할당해서 주소지정오유를 효과적으로 
차단한다. 

• 페지 (자료그름)를 페지틀(주기억기에 있는 물리주소)과 구별한다. 이것은 똑갈은 
폐지를 페지틀에 저장하였다가 디스크에 저장하고 후에 다른 폐지틀로 적재할수 있게 하 
며 가상기억기수법의 기본적인 요소이다. 

앞에서 보았지만 매 프로쎄스는 자기만의 폐지대역등록부와 일련의 페지표를 가전다. 
프로쎄스절환이 일어나면 Linux 는 cr 3 조종등록기의 값을 앞서 실행중이던 프로쎄스의 
서 술자에 저 장하고 다음에 실행할 프로쎄스의 서술자에 저 장된 값을 가져와 cr 3 을 설 
정한다. 따라서 CPU 가 새로운 프로쎄스의 실행을 재개할 때 페지화유니트는 정확한 페 
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지표집합을 참조하게 된다. 

두 종류의 폐지표만 있는 펜리움에 3 단계페지화모형을 적용하면 어떻게 되는가? 

Linux 는 폐지중간등록부마당의 길이가 Obit 라고 표시하여 페지중간등록부를 본질적 
으로 제거한다. 그러나 일련의 지적자에서 폐지중간등록부의 위치는 그대로 남아서 똑같 
은 코드로 32bit 와 64bit 구성방식 모두에서 동작하게 한다. 핵심부는 폐지중간등록부에 
있는 입구의 수를 1로 설정하고 이 입구 하나를 폐지대역등록부에 있는 적합한 입구로 
배치하여 폐지중간등록부의 위치를 유지한다. 

그러나 Linux 가 펜터움 pro 나 그 후에 나온 처리기에서 지원하는 물리주소확장 
(PAE) 수법을 사용하는 경우 Linux 의 폐지대역등록부는 80x86 의 폐지등록부에, 
Linux 의 페지표는 80x86 의 페지표에 각각 해당한다. 

론러주소를 선형주소로 배치하는것은 기계적인 작업이 되였지만 여전히 복잡한 작업 
으로 되고있다. 따라서 다음 부분에서는 핵심부가 주소를 찾고 표를 관리하는데 펼요한 
정보를 가져오는 함수와 마크로의 목록을 서술한다. 이 함수의 코드는 대부분 한행 이 나 
두행정도이다. 뒤에서 이 함수와 마크로를 자주 다루기때문에 이것들의 역할에 대해서 
취급하려 한다. 

1) 선형주소마당 

다음 마크로를 리용하여 간단하게 페지표를 관리 할수 있다. 

PAGE_SHIFT 

편위마당의 비트수를 지정한다. 80x86 처리기에서 이 값은 12 이다. 편위마당의 길 
이는 한 페지에 있는 모든 주소가 들어갈수 있게 지정해야 한다. 80x86 체계에서 한 페 
지의 크기는 2 12 , 즉 4096B 이다. 따라서 PAGE_SHIFT 값은 전체 폐지크기에 2 를 밑 
수으로 하는 로그를 취한 값인 12 이다. PAGE_SIZE 는 이 마크로를 사용하여 폐지의 
크기를 돌려준다. 마지막으로 PAGE_MASK 마크로를 Oxff 打 f000 으로 정의한다. 이 마 
크로는 편위마당의 모든 비트를 마스크하는데 사용한다. 

PMD_SHIFT 

선형주소의 폐지편위와 폐지표마당의 전체 길이 즉 한 폐지중간등록부입구가 배치할 
수 있는 령역의 크기 에 로그를 취 한 값이 다. PMD_SIZE 마크로는 폐지중간등록부의 입 
구 하나 즉 한 폐지 표에서 배 치 하는 령역의 크기를 계산한다. PMD_MASK 마크로는편 
위와 표마당을 모두 마스크 한다. 

PAE 를 사용하지 않을 때 PMD_SHIFT 의 값은 22 이고(편위마당에서 12, 표마당 
에서 10), PMD_SIZE 는 2 2 2 즉 4MB 이며 PMD_MASK 는 0xffc00000 이다. PAE 를 
사용할 때에는 PMD_SHIFT 의 값이 21 이고(편위마당에서 12, 표마당에서 9), 
PMD_SIZE 는 2 21 즉 2MB 이며 PMD_MASK 는 0xffc00000 이 다. 

PGDIR_SH1FT 

한 페지대역등록부입구가 배치할수 있는 령역의 크기에 로그를 취한값이다. 
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PGDIR _ S 1 ZE 마크로는 패지 대 역등록부의 입구 하나에서 배 치 하는 령역의 크기를 계산한 
다. PGDIR _ MASK 마크로는 편위와 표, 중간등록부마당을 모두 마스크한다. 

PAE 를 사용하지 않을 때 PGDIR _ SHIFT 의 값은 22이고 ( PMD _ SHIFT 의 값과 같다.) 
PGDIR_SIZE 는 2 2 2 즉 4 MB 이며 PGDIR _ MASK 는 OxffcOOOOO 이다. PAE 를 사용할 
때에는 PGDIR _ SHIFT 의 값이 21이고(편위 마당에서 12，표 마당에서 9, 중간등록부마당 
에서 9), PGDIR _ SIZE 는 2 3 ° 즉 1 GB 이며 PGDIR _ MASK 는 OxcOOOOOOO 이 다. 

PTRS_PER_PTE, PTRS_PER_PMD, PTRS_PER_PGD 

페 지 표와 폐지 중간등록부，폐지 대 역등록부에 들어가는 입구의 수를 계 산한다. PAE 
를 사용하지 않을 때 각각의 값은 1024，1，1024이며 PAE 를 사용할 때에는 각각 512, 
512, 4이다. 

2) 폐지표다루기 

마6그와 pmd _ t , pgd _ t 는 각각 폐지표와 폐지중간등록부，페지대역등록부입구의 형 
을 나타낸다. 이것들은 PAE 를 사용불가능할 때에는 32 bit 자료형이고 가능할 때에는 
64 bit 자료형이다. pgprot _ t 는 한 입구와 관련된 보호비트 (protection bit ) 를 나타내는 
또 다른 32 bit 형 이 다. 

형을 변환하는 4개 마크로 _ pte (), _ pmd (), _ pgd (), _ pgprotO 는 unsigend 
long 형를 필요한 형으로 변환한다. 형을 변환하는 다른 4개 마크로 pte _ val () , 
pmd_val 0, pgd_val 0, pgprot_val 0 은 반대 로 특정 형 에 서 unsigend long 형 으로 
변환한다. 

핵심부는 또한 페지표입구를 읽고 수정하는 여 러 마크로와 함수를 제공한다. 

• pte_none () , pmd_none () , pgd _ none () 마크로는 해당 입구값이 0이면 1, 그 
렇지 않으면 0을 반환한다. 

• pte _ present () , pmd _ present (), pgd _ present () 마크로는 해 당 입구 Present 
기발이 1, 즉 해당 폐지나 페지표가 주기억기에 적재되여있으면 1을 반환한다. 

• pte _ clear () , pmd _ clear () , pgd _ clear () 마크로는 해당 페 지표의 입구를 지운 
다. 따라서 프로쎄스는 해당 페지표입구가 배치하고있던 선형주소를 더는 사용할수 없게 
된 다. 

pmd _ bad () 와 pgd _ bad () 는 함수가 입력파라메터로 전달받은 폐지대역등록부와 페 
지중간등록부의 입구를 검사하는데 사용한다. 각 마크로는 입구가 잘못된 폐지표를 가리 
키고있으면 즉 다음 조건중 하나라도 해당하면 1을 되돌린다. 

• 페지 가 주기 억 기 에 존재 하지 않는다. ( Present 기 발이 0이 다.) 

• 페 지 에 읽 기 접 근만 할수 있 다. ( Read / Write 기 발 이 0 이 다. ) 

• Accessed 나 Dirty 가 0이 다. ( Linux 는 존재 하는 모든 페 지 표에 있는 이 기 발 
을 항상 1로 설정한다.) 

pte _ bad () 라는 마크로는 없는데 그 리유는 페지표입구가 주기억기에 존재하지 않거 
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나 쓸수 없거나 접근할수 없는 패지를 가러키는것 모두 합법적이기때문이다. 대신 폐지 
표입 구에 들어있는 기 발의 현재 값을 알아내 는 여 러 함수를 제 공한다. 
pte _ read () 

user / supervisor 기 발값을 되돌린다. (페지 를 사용자방식 에서 접 근할수 있는가를 나 
타낸다.) 

pte _ write () 

read 八 vrite 기발이 설정되여 있으면 1을 되돌린다. (페지 에 쓰기가능한가를 나타낸다.) 
pte _ exec () 

user / supervisor 기 발값을 되돌린다. (사용자방식 에서 페지 에 접 근할수 있는가를 나 
타낸다.) 

80 x 86 처리기에서는 패지에 있는 코드실행을 금지할수 있는 방법이 없다. 
pte _ dirty ( ) 

dirty 기발값을 되돌린다. (폐지에 있는 내용이 바뀌였는가를 나타낸다.) 
pte _ young () 

accessed 기 발값을 되돌린다. (페지 에 접 근했는가를 나타낸다.) 

페지표입구에 있는 기발값을 설정하는 다른 함수그룹도 있다. 
pte _ wrprotect () 

read 八 vrite 기발을 0으로 설정한다. 
pte _ rdprotect () 와 pte _ exprotect () 

User / Supervisor 기 발을 0으로 설정 한다. 
pte _ mkwrite () 

Read / Write 기발을 1 로 설정 한다. 
pte_mkread 0 와 pte_mkexec 0 
User / Supervisor 기발을 1로 설정한다. 
pte _ mkdirty () 와 pte_mkclean () 

Dirty 기발을 각각 1과 0으로 설정해서 폐지가 바뀌였거나 바뀌지 않았다고 표시한다. 
pte _ mkyoung () 과 pte _ mkold () 

Access 기발을 각각 1과 0으로 설정해서 폐지에 누군가 접근했거나 ( young ) 접근하 
지 않았다고 ( old ) 표시한다. 
pte _ modify ( p , v ) 

페지표입구 p 의 모든 접근권한을 구에 지정한 값으로 설정 한다. 
set _ pte 와 set _ pmd , set_pgd 

지정한 값을 각각 페지표，폐지중간등록부, 폐지대역등록부입구에 기록한다. 
ptjqp _ set _ wiprotectO 와 ptjqp_mkMyO 함수는 pte _ wrprotectO 와 pte—mkdirty () 함수와 비 슷 
하지 만 페 지 표입 구에 대 한 지 적 자를 파라메터 로 받는다는 점 이 다르다. 
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ptep _ test _ and _ clear_dirtyO 와 ptep _ test _ and _ clear_youngO 함수는 pte_mkclean 0 과 
pte _ mkold () 함수와 비 슷하지 만 마찬가지 로 폐 지 표에 대 한 지 적 자를 파라메터 로 받으며 
기 발에 있던 이전값을 돌려준다는 점 이 다르다. 

다음은 폐지 주소와 여 러 보호기 발을 조합하여 폐지입구를 만들거 나 이와 반대 로 페 
지 표입 구에 서 페 지 주소를 뽑아내 는 마크로이 다. 
mk_pte 

선형주소와 여 러 접근권한을 조합해서 페지표입구를 만든다. 
mk _ pte_phys 

물리 주소와 페지 접근권한을 조합해서 페지 표입 구를 만든다. 
pte_page 

페지표입구가 참조하는 폐지틀의 서술자의 주소를 되돌린다. 
pmd _ page ( ) 

폐 지중간등록부입 구에 서 페 지 표의 선형주소를 가져 와 되 돌린 다. 
pgd _ offset ( p , a ) 

이 마크로는 기 억기서술자 p 와 선형주소 a 를 파라메터로 받아 페지대역서술자에 
서 주소 a 에 해당하는 입구의 주소를 반환한다. 폐지대역등록부는 기억기서술자 p 에 있 
는 지적자를 리용하여 찾을수 있다. pgd _ offset _ k () 마크로는 이와 비슷하지만 주핵심 
부폐지표를 참조한다는 차이가 있다. 
pmd _ offset ( p , a ) 

이 마크로는 폐지대역등록부의 입구 p 와 선형주소 a 를 파라메터로 받아 p 가 참조하 
는 페지중간등록부에서 주소 a 에 해 당하는 입구의 주소를 반환한다. 

지금까지 살펴본 긴 목록에서 마지막에 나온 함수들은 페지표입구를 쉽게 만들고 지 
우기 위하여 도입한것이다. 

2단계페 지 화를 사용할 때 (PAE 는 사용하지 않고) 페 지 중간등록부입 구를 만들고 지 
우는 일은 매우 간단하다. 앞에서 설명한바와 같이 패지중간등록부는 자기에 종속된 페 
지 표를 가리키는 입구 하나만을 가진다. 따라서 페 지 표중간등록부입구는 폐지대 역등록부 
에 있는 입구이기도 하다. 그러나 페지표를 다룰 때 입구를 만드는 작업은 해당 입구를 
포함해야 할 페지표가 존재하지 않을수도 있기때문에 조금 더 복잡하다. 이런 경우 새로 
운 폐지틀을 할당하여 그것을 0으로 채운 다음 입구를 추가해야 한다. 

PAE 를 사용하는 경우 핵심부는 3단계페지화를 사용한다. 핵심부는 새 폐지대역등 
록부를 만들 때 이에 따르는 폐지중간등록부 4개를 함께 할당한다. 이것들은 부모격인 
폐지대역등록부가 없어질 때에만 해제된다. 

《 페 지 틀관리》에 서 보지 만 페 지 틀을 할당하고 해 제 하는 일은 시 간이 많이 소요되 는 
작업 이 다. 따라서 핵 심부는 페지 표를 없앨 때 기 억 기를 해제하는 대 신 해 당 폐지 틀을 적 
당한 기 억기캐쉬 에 추가한다. 
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pgd_alloc ( m ) 

get _ zeroed _ page () 함수를 호출하여 새로운 페지대역등록부를 할당한다. PAE 를 
사용하는 경우 이 함수는 4개의 폐지중간등록부도 함께 할당한다. 80 x 86 구성방식에서 
는 파라메터 m 을(기 억 기서 술자의 주소) 무시 한다. 
pmd _ alloc ( m , p , a ) 

3단계페지화체계에서 선형주소 a 에 해당하는 새로운 폐지중간등록부를 할당할 
수 있도록 정의한 함수이다. PAE 를 사용하지 않을 때 에는 이 함수는 입 력인자 p , 즉 
폐지대역등록부에 있는 입구의 주소를 그대로 반환한다. PAE 를 사용하는 경우 이 함수 
는 패지대 역등록부를 만들었을 때 할당한 폐지중간등록부의 주소를 반환한다. 파라메터 
m 은 무시한다. 

pte _ alloc_kernel ( m , p , a ) 

폐지중간등록부 입구 P 의 주소와 선형주소 a 를 인자로 받아서 a 에 해당하는 폐 
지표입구의 주소를 반환한다. 폐지중간등록부 입구가 비였으면 ( null ) 이 함수는 새로 
페지표를 할당한다. 이것을 위해 폐지틀을 할당할 때에는 pte _ alloc _ one _ kernel () 함수 
를 호출한다. 새로 페지표를 할당하고 나면 a 에 해당하는 입구를 초기화하고 
User / Supervisor 기 발을 1로 설정 한다. 파라메 터 이은 무시 한다. 
pte _ free () 와 pgd _ free () 

페지표를 해제한다. 패지중간등록부는 부모격 인 폐지대 역등록부와 함께 할당하고 
해제하므로 pmd _ free () 함수는 아무 일도 하지 않는다. 
clear _ page_tables 0 

free _ one _ pgd () 함수를 여러번 호출해서 프로쎄스의 페지표의 내용을 지운다. 

3) 예약된 폐지틀 

핵심부코드와 자료구조는 일련의 예약된 폐지틀 (reserved page frame ) 에 저장한 
다. 이 폐지틀에 들어있는 페지는 절대로 동적으로 할당하거 나 디스크로 교환하지 않는 
다. 일반적으로 Linux 핵심부를 RAM 의 물리주소 0 x 00100000 즉 1 MB 령역부터 설치 
한다. 필요한 폐지틀의 전체개수는 핵심부를 어 떻게 설정 하였는가에 따라 달라지지만 일 
반설정 인 경우 핵심부는 RAM 을 2 MB 이하로 사용한다. 

왜 핵 심부를 기 억기의 처 음 1 MB 령역 으로 적재 하지 않는가? 

이와 관련하여 PC 구성 방식에서 다음과 같은것을 고려해 야 한다. 

• 페지틀 0은 BIOS 가 전원투입시 자기진단 ( POST : Power-On Self - Test ) 과 
정에서 인식한 체계하드웨어설정을 저장하는데 사용한다. 또한 휴대용를퓨터에 있는 많 
은 BIOS 는 체계를 초기화한 후에도 이 페지에 자료를 기록하기도 한다. 

• 물리주소 0 x 000 a 0000 에서 0 x 000 f 打 ff 까지는 BIOS 함수와 ISA 화면표시카드 
의 내부기 억기를 배 치하는 용도로 예 약되 여있다. 이 령 역은 모든 IBM 호환 PC 에 있는 
6401出부터 1 MB 까지 의 빈 령 역 ( hole ) 으로 잘 알려 져 있 다. 물리 주소는 존재 하지 만 다 
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른 용도로 예 약되 여있어서 조작체계는 해 당 폐지틀을 사용할수 없다. 

• 일부특정름퓨터모형에서는 처음 IBM 안에 있는 폐지틀을 추가로 예약하기도 
한다. 례를 들어 IBM Think Pad 는 OxaO 페지틀을 0 x 9 f 폐지틀에로 배 치한다. 

체계 기동과정의 초기 단계 에서 핵 심부는 BIOS 에 문의 하여 물리 기억기의 크기를 알 
아낸다. 최근 름퓨터에서 핵심부는 물리주소범위와 해당 기억기종류의 목록을 만드는 
BIOS 함수도 호출한다. 후에 핵심부는 setup _ memory _ region 0 함수를 실행 한다. 이 
함수는 표 4-1 에서 보는것처럼 울리주소령역의 목록을 만든다. BIOS 에서 목록을 제공 
하면 핵심부는 이것을 기반으로 목록을 작성하고 그렇지 않으면 전통적인 기본설정에 따 
라 목록을 작성한다. Ox 9 f ( LOWMEMSIZE ) 부터 0 x 100( HIGH _ MEMORY ) 사이의 번 
호를 가진 모든 폐 지 틀은 예 약된것 으로 표시한다. 


哀 4-1. BIOS 에서 제공하는 물리주소 배렬의 례 


시작 

1 - 

종류 

0 x 00000000 

0 x 0 009 打 ff 

사용가능 

0 x 000 f 0000 

OxOOOfffff 

예약됨 

0 x 00100000 

0 x 07 feffff 

사용가능 

0 x 07 ff 0000 

0 x 07 ff 2 fff 

ACPI 자료 

0 x 07 ff 3000 

0 x 07 伴 ff 打 

ACPI NVS 

OxffffOOOO 

Oxffffffff 

예약됨 


표 4-1 은 128 MB 의 RAM 을 가지고있는 를퓨터의 전형적인 기억기구성이다. BIOS 
는 POST 단계에서 물러주소 0 x 07 ffl )000 에서 0 x 07 ff 2 fff 사이의 령역에 체계의 하드웨 
어장치 에 관한 정보를 저장한다. 핵심부는 초기화단계에서 이 정보를 적당한 핵심부자료 
구조로 복사한 후 이 폐지틀을 사용가능하다고 여긴다. 반대로 물리주소 0 x 07 ff 3000 에 
서 0 x 07 f 打 f 打사이의 령역은 하드웨 어장치 에 있는 ROM 소자로 배 치된다. 

Ox 打 ffOOOO 에서 시작하는 물러주소령역은 하드웨어가 BIOS 의 ROM 소자를 배치하 
는데 사용하므로 예 약된 령역 으로 표시된다. BIOS 는 어떤 물리 주소범위 에 대 해서는 아 
무런 정보를 제공하지 않을수도 있다.(표에서는 OxOOOaOOOO 에서 OxOOOeff 打까지가 비 
여있다.) 안전하게 하기 위해 Linux 는 이런 범위를 사용할수 없는 령역이라고 여긴다. 

Linux 는 핵심부를 비련속적인 폐지틀로 적재하는것을 피하려고 RAM 의 처음 1 MB 
를 건너쥔다. PC 구성방식에서 특별히 예약하지 않은 패지틀은 Linux 가 동적으로 할당 
한 폐지를 저장하는데 사용할것이다. 
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그림 4-12 에서는 Linux 에서 RAM 의 처음 2MB 령역을 어떻게 채우는가를 보여준 
다. 여기서는 핵심부가 1MB 보다 적은 RAM 을 펼요로 한다고 가정한다. 


0 1 0x9f 0x100 Oxlff 



□ 

□ 

□ 



사용불가능한 페 지 들 
사용가능한 페 지 틀 
핵심부코드 
초기 화된 핵 심 부자료 
초기 화되 지 않은 핵 심 부자료 


etext edata end 


그림 4-12. 리눅스에서 처음 引2개 (2MB) 의 페지틀 

물리 주소 0x00100000 에 해당하는 _text 라는 기호는 핵심부코드의 첫 번째 바이트의 
주소를 나타낸다. 비숫하게 핵 심부코드의 끝을 _etext 로 나타낸다. 핵심부자료는 초기 화 
된 (initialized) 자료와 초기화되지 않은 (uninitialized) 자료로 나누어진다. 초기화된 
자료는 _etext 바로 다음부터 시 작하며 _edata 에서 끝난다. 

그 다음에 초기 화되지 않은 자료가 나오고 _edata 에서 끝난다. 

그림 에 나오는 기호는 Linux 원천코드에는 정의되 여있지 않으며 핵심부를 콤파일하 
는 도중에 만들어진다. 

° 프로쎄스페지표 

프로쎄스의 선형주소공간은 두 부분으로 나누어진다. 

• 0x00000000 에서 Oxbfffffff 까지의 선형주소는 프로쎄스가 사용자방식에 있든 
핵심부방식에 있든 항상 접근할수 있다. 

• OxcOOOOOOO 에서 Oxfff 伴 fff 까지의 선형주소는 프로쎄스가 핵심부방식에 있을 
때에만 접근할수 있다. 

프로쎄스가 사용자방식에서 동작중일 때 프로쎄스는 OxcOOOOOOO 보다 작은 선형주 
소를 만들어 내 고 핵 심부방식 에서 동작중일 때 에는 핵 심부코드를 실행하면서 
OxcOOOOOOO 이상의 선형주소를 만들어낸다. 그렇지만 때때로 핵심부는 자료를 가져오거 
나 저장하기 위해서 사용자방식의 선형주소공간에 접근해야만 한다. 

PAGE_OFFSET 마크로는 OxcOOOOOOO 값을 자진다. 이것은 프로쎄스의 선형주소공 
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간에서 핵심부가 위치하는 편위이다. 이 책에서는 자주 이 마크로대신 OxcOOOOOOO 값을 
직접 사용한다. 

OxcOOOOOOO 보다 아래에 있는 선형주소를 배치하는 폐지대역등록부의 처음 입구들 
( PAE 를 사용하지 않을 때 입구 768개)의 내용은 프로쎄스마다 다르다. 반면에 나머지 
입구들은 모든 프로쎄스에서 똑같아야 하며 핵심부주폐지대역등록부에 있는 해당 입구와 
도 같다. 이 기호들의 선형주소는 핵심부틈파일직후에 만들어지는 System , map 파일에 
서 찾을수 있다. 

2. 2핵 심부에서는 1 GB 보다 크지만 2 GB 보다 작은 RAM 을 사용하기 위 해서 
PAGE _ OFFSET 을 OxcOOOOOOO 이 아닌 다른값으로 바물수 있었다. 하지만 2/4이상에 
들어와서 4 GB 이상의 기억기를 지원하는 highmem 을 쓰면서 이 값이 OxcOOOOOOO 으로 
고정 되였다. 

o 핵심부페지표 

핵심부는 자기가 사용하기 위한 폐지표도 관리하며 이것을 주핵심부패지대역등록부 
(master kernel Page Global Directofy ) 라고 한다. 체계를 초기화한 후에는 어떤 프 
로쎄스나 핵심부스레드도 이 페지표를 직접 사용하지 않는다. 그대신 주핵심부폐지대역 
등록부의 웃자리에 있는 입구들은 체계에 있는 모든 정규프로쎄스의 폐지대역등록부에 
있는 해당 입구들의 참조모형이다. 

주핵 심 부패 지대 역 등록부가 바뀔 때 이것을 어떻게 체 계에 있는 프로쎄 스가 사용하는 
폐 지 대 역 등록부로 전달하는가는《불련속적 인 기 억기 령 역 접 근처 리》에 서 설명 한다. 

이제 핵심부가 자기의 페지표를 초기화하는 법을 살찌보자. 이것은 두 단계를 거친 
다. 핵심부사본을 기 억기 에 적재 한 직후 CPU 는 여전히 실방식 (real mode ) 에서 동작하 
며 페지화는 사용하지 않는다. 

첫번째 단계로 핵심부를 RAM 에 넣는데 충분한 8 MB 크기의 제한된 주소공간을 만든다. 

두번째 단계로 핵심부는 모든 RAM 을 활용하여 폐지표를 정확히 만든다. 이제 이 
단계가 어떻게 진행되는지 보자. 

■ 림시핵심부페지표 

림시폐지대역등록부는 핵심부를 콤파일할 때 정적으로 초기화하며 페지표는 
arch / i 386/ kernel / head . S 에 있는 startup _32() 기호언어함수에서 초기화한다. 폐지중 
간등록부는 폐지대 역등록부입구와 동일 하므로 더는 언급하지 않겠다. 

페지대 역등록부는 swapper _ pg _ dir 변수에 들어있고 RAM 의 처음 8 MB 만 포함하는 
페지 표는 pgO 과 pgl 변수에 들어 있다. 

페지화 첫째 단계에서는 이 8 MB 를 실제방식과 보호방식 모두에서 쉽게 접근할수 
있게 한다. 그러기 위해 핵심부는 0 x 00000000 에서 0 x 007 f 打 ff 까지의 선형주소와 
OxcOOOOOOO 에서 0 xc 07 fffff 까지의 선형주소를 모두 0 x 00000000 에서 0 x 007 ff 打 f 까지 
의 물리주소로 배치한다. 다시말하여 초기화의 첫째 단계동안 핵심부는 처음 8 MB 의 
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RAM 을 접근할 물러주소와 똑같은 선형주소를 사용할수도 있고 OxcOOOOOOO 부터 8MB 
범위에 있는 선형주소를 사용할수도 있다. 

핵심부는 swapper_pg_dir 의 0, 1, 0x300 (십진수 768), 0x301 (십진수 769) 번째 
입구를 제외한 나머지입구를 모두 0 으로 채운다. 끝의 두 입구는 OxcOOOOOOO 에서 
0xc07ff 打 f 사이 의 선형 주소령역 에 해 당한다. 0, 1, 0x300, 0x3()l 번째 입 구를 다음과 
같이 초기화한다. 

• 0 과 0x300 번째 입 구의 주소마당을 pgO 의 주소로, 1 과 0x3()l 번째입 구의 주소마 
당을 Pgl 의 주소로 설정한다. 

• Present, Read/Write, User/Supervisoi •기발을 모두 1 로 설정한다. 

• Accessed, Dirty, PCD, PWD, Page Size 기발을 모두 0 으로 설정한다. 
startup_32() 기호언어 함수는 swapper_pg_dir 의 물리 주소를 cr3 조종등록기에 저장 

하고 crO 조종등록기의 PG 기발을 1 로 설정해서 페지화유니트를 사용하게 만든다. 

• 최종핵심부페지표 

핵심부는 최종적으로 OxcOOOOOOO 부터 시작하는 선형주소를 0 부터 시작하는 물리주 
소로 변환하도록 페지표를 만든다. 

_pa 마크로는 PAGE_OFFSET 부터 시작하는 선형 주소를 해당 물리 주소로 변환하 
며 _va 마크로는 그 반대일을 수행한다. 

핵 심 부주페 지 대 역 등록부는 여 전히 swapper_pg_dir 에 들어 있 으며 pagingjnit 0 는 
이것을 다음과 같이 초기화한다. 

1. pagetable_init() 을 호출해서 페지표입구를 정확히 설정한다. 

2. swapper_pg_dir 의 물리 주소를 cr3 조종등록기에 기록한다. 

3. _flush_tlb_all() 을 호출해서 모든 TLB 입구를 비운다. 
pagetable_init() 함수가 하는 일은 체계에 있는 RAM 의 크기와 CPU 모형에 따라 

다르 다. 

우선 가장 간단한 경우부터 시작하자. 콤퓨터에 있는 RAM 크기가 896MB 이하로 
32bit 물리주소로 모든 RAM 의 주소를 지정할수 있어서 PAE 수법(앞에서 본《물리주소 
확장페 지 화수법》을 참고)을 사용할 필요가 없 다고 하자. 

다음과 같은 코드로 swapper_pg_dir 메지대역등록부를 다시 초기화한다. 
pgd_t *pgd_base = swapper_pg_dir : 

setup_identity_mappings(pgd_base, PAGE_OFFSET, end); 
remap_numa_kva () : 

vaddr = — fix_to_virt( — end_of_fixed_addresses - 1) & PMD_MASK； 
fixrangejnit(vaddr, 0, pgd_base); 

end 변수에는 3GB 부터 시작하여 사용가능한 물리기억기의 끝에 해당하는 선형주소 
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가 들어있다. 여기서 CPU 는 최신 80x86 처 리기 이고 4MB 크기의 패지와《대 역》 TLB 
입구를 지 원한다고 가정한다. OxcOOOOOOO 보다 큰 선형주소를 참조하는 모든 폐지대 역 
등록부입 구의 User/Supervisor 기 발은 0 이 고 따라서 사용자프로쎄 스는 핵 심 부주소공간 
에 접근할수 없다. 

핵심부가 첫번째 단계의 초기화를 끝마치기 위해서 startup_32() 함수에서 설정한 
처음 8 MB 물리기억기를 같은 주소로 배치하는것이 필요하다. 이 배치가 더는 필요하지 
않게 되면 핵심부는 zap_low_mappings () 함수를 호출해서 해당 페 지표입구를 지운다. 

뒤 에 나오는《 고정배 치 하는 선형주소》에서 보지 만 핵 심부는 고정 배 치 하는 선형주 
소에 해당하는 페지표의 입구를 조정한다. 선형주소의 웃자러 128MB 령역은 여 러 종류 
의 배치을 위해 남겨둔다. (뒤에서 보게 되는《고정배치하는 선형주소》와《불련속적인 
기 억 기 령역 관리》를 참고) 따라서 핵 심 부가 RAM 을 배 치하는데 사용할수 있는 공간은 
1GB - 128MB = 896MB 이 다. 

• RAM 크기가 896 MB 에서 4096 MB 사이 일 때 최종핵심부폐지표 

이 경우 RAM 전체를 핵심부선형주소공간으로 배치할수 없다. Linux 가 할수 있는 
최 선의 일은 초기 화단계 에 서 는 896MB 만큼의 RAM 구역 을 핵 심부선형 주소공간으로 배 치 
하고 프로그람의 다른 주소에 접근해야 할 때에는 다른 선형주소구역을 요청한 RAM 으 
로 배 치해 야 한다. 이것은 폐지표입구를 바꾸는것을 필요로 한다. 이 렇게 동적 으로 다시 
배 치하는 방법은 다음에 론의한다. 

페지대역등록부를 초기화할 때 핵심부는 앞에 나온것과 갈은 코드를 사용한다. 

■ RAM 크기가 4096 MB 이상일 때 최종핵심부페지표 

이제 4GB 이상의 RAM 을 장착한 콤퓨터에서 핵심부페지표를 초기화하는것을 보자. 
더 정확히 말하면 다음과 같은 경우에만 이와 같이 처리한다. 

• CPU 가 물리 주소확장을 지 원 하는 모형일 때 

• RAM 의 크기가 4GB 이상일 때 

• 핵심부를 PAE 를 지원하도록 콤파일했을 때 

PAE 로 36bit 물리주소를 다룰수 있지만 선형주소는 여전히 32bit 주소이다. 앞의 경 
우와 마찬가지로 896MB 의 RAM 구역을 핵심부선형주소공간에 배치한다. 나머지 RAM 
은 배 치하지 않은 상태 로 남겨 두고 동적재배 치를 통해서 사용한다. 앞의 경우와 다른점 
은 3 단계 페지화모형을 사용한다는 사실이다. 따라서 페지대역등록부를 아래와 같이 초 
기화한다. 

pgd_t *pgd_base = swapper_pg_dir; 

for (i = 0; i < PTRS_PER_PGD ； i++) { 

pmd_t *pmd = (pmd_t *) alloc_bootmem_low_pages(PAGE_SIZE); 

set_pgd(pgd_base + i, — pgd( — pa(pmd) + 0x1)); 
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setupjdentity_mappings(pgd_base , PAGE_OFFSET, end); 
remap_numa_kva () : 

vaddr = — fix_to_virt( — end_of_fixed_addresses - 1) & PMD_MASK ； 
fixrangejnit(vaddr, 0, pgd_base); 

핵심부는 사용자선형주소공간에 해당하는 폐지대역등록부의 처음 세 입구를 빈페지 
(empty_zero_page) 의 주소로 초기화하고 4 번째 입구는 페지 중간등록부 (pmd) 의 주소 
로 초기화한다. 폐지중간등록부의 처음 448 개 입구(실제로 입구가 512 개 있지만 끝에서 
64 개의 입 구는 불련속적 인 기 억 기 할당을 위 해 예 약되 여있 다. )를 RAM 에 서 처 음 
896MB 의 물리주소로 채운다. 

모든 CPU 모형에서 PAE 나 2MB 크기의 패지대역폐지를 지원하는것은 아니다. 앞의 
경우와 마찬가지로 Linux 는 가능하면 큰 페지를 사용하여 페지표의 개수를 줄이려고 
한다. 

4) 고정 배치 하는 선형 주소 

핵심부선형주소의 마지막 1GB 의 앞부분은 체계에 있는 물러기억기로 배치되는것을 
보았다. 그렇지 만 적 어도 128MB 의 선형주소는 핵 심부가 불련속적 인 기 억기할당과 고정 
배 치 하는 선형 주소를 구성하는데 사용할수 있도록 항상 비 워 둔다. 

불련속적인 기억기할당이란 단지 동적으로 기억기패지를 할당하고 해제하는 특별한 
방식으로서 《불련속적인 기억기령역관리》에서 설명한다. 여기서는 고정배치하는 선형 
주소에 만 초점 을 두고 설명 한다. 

기 본적 으로 《 고정 배 치 하는 선형 주소 (fix_mapped linear address) > 란 
OxfffffdfO 와 같은 상수값을 포함하는 선형주소로서 이에 해당하는 를리주소는 임의의 
방법 으로 설정 할수 있다. 따라서 매 고정배치 하는 선형주소는 물러기 억기의 한 폐지틀으 
로 배치된다. 

고정배 치 하는 선형주소는 개 념적 으로 보면 처음 896MB 의 RAM 으로 배 치 하는 선형 
주소와 비 숫하다. 그렇 지 만 고정 배치 하는 선형 주소는 어 떤 물리 주소로도 배 치할수 있는 
데 대해 마지막 1GB 의 앞부분에 있는 배 치는 련속적 이다. (선형주소 표를 물리주소 
X_PAGE_OFFSET 으로 배 치 한다.) 

지적자변수를 사용하는것보다 고정배치하는 선형주소가 조금 더 효률적이다. 사실 
지적자변수가 가리키는곳을 참조할 때에는 상수로 된 주소를 참조할 때 기억기를 한번 
더 접근해 야 한다. 나아가서 지적자변수를 참조하기 전에 값이 정확한가를 확인하는것 이 
좋은 프로그람작성습관이지만 상수인 선형주소를 사용하는 경우에는 이런 검사가 필요 
없다. 

모든 고정배 치 하는 선형주소는 enum fixed_addresses 자료구조로 정의하고 옹근수 
색 인으로 표현한다. 
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enum fixed_addresses { 

FIX _ HOLE , 

FIX — VSYSCALL , 

tifdef CONFIG _ X 86_ LOCAL_APIC 
FIX _ APIC _ BASE , 

#endif 

#ifdef CONFIG _ X 86_ IO_APIC 

fix _ apic _ base _ o , 

I ，. .] 

— end _ of _ fixed_addresses 

}； 

고정 배치 하는 선형 주소는 선형 주소의 마지 막 1 GB 령역 의 끝에 위 치한다. 
fix _ to _ virt ( ) 함수는 색인을 가지고 상수선형주소를 계산한다. 
static _ always_inline unsigned long 

fix _ to_virt (const unsigned int idx ) 

{ 

if (idx >= — end _ of _ fixed _ addresses ) 

— this _ fixmap _ does _ not_exist ( ); 
return _ fix _ to _ virt ( idx ) : 

} 

어떤 핵심부함수가 fix _ to _ virt ( FIX _ IOAPIC _ BASE _0) 틀 호출하였다고 하자. 이 
함수를 직 결 ( inlne ) 으로 정 의 하고있기 때 문에 C 콤파일 러 는 fix _ to _ virt () 함수를 호출하 
지 않고 이것을 리용하는 함수에 코드를 단순히 삽입한다. 실행할 때에는 색인값을 검사 
하지 않는다. 

FIX _ IOAPIC _ BASE _0 은 상수이고 롬파일러는 콤파일시 if 문장의 조건이 거짓이라 
는 사실을 알기때문에 해당 문장을 잘라낼수 있다. 반대로 if 문장의 조건이 참이거나 
fix _ to_virt 0 함수의 파라메 터 가 상수가 아니 라면 _ this _ fixmap _ does _ not _ exist 라는 
기호를 어디서도 정의하지 않으므로 련결하는 단계에서 오유가 발생한다. 결론적으로 름 
파일러는 ( FIXADDR_TOP - (( x ) « PAGE _ SHIFT )) 값을 계산해서 fix _ to _ virt () 
함수호출을 상수선형주소인 OxffffeOOO 으로 대체한다. 

핵 심 부는 set _ fixmap ( idx ， phys ) 과 set_fixmap nocache ( idx , phys ) 함수를 사용 
해서 물리주소를 고정배치하는 선형주소와 련결한다. 두 함수는 모두 fix _ to _ virt ( idx ) 
선형주소에 해당하는 페지표입구를 초기화한다. 그렇지만 뒤의 함수는 페지표입구의 
PCD 기발을 1로 설정하여 해당 폐지틀에 있는 자료를 접근할 때 하드웨어캐쉬를 끄게 
한다. ( 앞서 설명 한《 하드웨 어 캐 쉬》를 참고) 
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6. 하드웨어캐쉬와 TLB 다루기 

최 근 롬퓨터 구성 방식 에 서 하드웨 어 캐 쉬 와 변환참조완충기 ( TLB ) 는 성 능을 높이 는데 
서 중요한 역활을 한다. 그래서 핵 심 부개 발자들은 캐 쉬 실패 나 TLB 실패 의 회수를 줄이 
려고 여러가지 기법을 사용한다. 

1) 하드웨 어 패 쉬다루기 

처음에 이 야기 한바와 같이 하드웨 어캐쉬는 캐쉬선로단위 로 접근한다. 
L 1_ CACHE _ BYTE 마크로는 캐쉬선로의 바이트단위크기 이 다. 이 값은 펜리움4 이전 모 
형에서는 32，펜리움4에서는 128이다. 

캐쉬명중비률을 높이기 위하여 핵심부는 구성방식를 고려하여 다음과 같은 결정을 
내린다. 

• 자료구조에서 가장 자주 사용하는 마당을 자료구조의 앞부분에 두어 캐쉬에서 
같은 선로에 들어가도록 한다. 

• 핵심부는 큰 크기의 자료구조를 할당할 때 캐쉬선로를 균등하게 사용할수 있 
는 형태로 기억기에 저장한다. 

• 핵심부는 프로쎄스절환을 할 때 이전에 동작하던 프로쎄스와 같은 페지표를 
사용하는 프로쎄스를 더 먼저 호출한다. (《 schedule ( ) 함수》를 참고) 

2) TLB 다루기 

일반적으로 어떤 프로쎄스절환이 일어나든 현재 사용하는 폐지표를 바꾸어야 한다. 
이전의 페지표를 가지고 만든 국부 TLB 역시 모두 비워야 한다. 이 일은 핵심부가 cr 3 
조종등록기에 새로운 폐지대역등록부의 주소를 쓸 때 자동으로 일어난다. 가끔 다음과 
갈은 경우 핵심부가 TLB 를 비우지 않아도 된다. 

• 똑같은 페지표를 사용하는 2개의 일반프로쎄스사이에서 프로쎄스절환을 하 
는 경우 (《 schedule () 함수》를 참고) 

• 일 반프로쎄 스와 핵 심 부스레 드사이 에 서 프로쎄 스절환을 하는 경 우 

《 핵 심 부스레 드의 기 억 기 서 술자》에 서 보았지 만 핵 심 부스레 드는 자기 만의 페 지 표가 
없으며 핵 심부스레 드를 실행하는 CPU 에서 마지 막으로 실행된 일반프로쎄스의 페지 표를 
사용한다. 

프로쎄스절환외에도 핵심부가 TLB 에 있는 일부 입구를 비워야 하는 경우가 있다. 
례 를 들어 핵 심부가 사용자방식프로쎄스에 페지 틀을 할당한 후 해 당 물러주소를 페지표 
입구에 기록하면 해당 선형주소를 참조하는 모든 국부 TLB 입구를 비워야 한다. 다중처 
리기체계에서 핵심부는 같은 페지표를 사용하는 CPU 가 있는 경우 해당 CPU 에 있는 
같은 TLB 입구도 비워야 한다. 

핵심부는 다음 함수와 마크로를 사용하여 TLB 입구를 비운다. 

_ flush _ tlb_one 
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지정한 주소를 포함하는 폐지에 대한 국부 TLB 입구를 비운다. 
flush _ tlb_page 

모든 CPU 에서 지정한 주소를 포함하는 폐지에 대한 국부 TLB 입구를 비운다. 이 
를 위해 핵심부는 다른 CPU 에 처리기사이 새치기 (interprocessor interrupt ) 를 보낸 
다. (《 처 리 기 간새 치 기 처 리》를 참고) 
local _ flush_tlb 와 _ flush_tlb 

현재프로쎄스의 모든 페지에 대한 국부 TLB 를 비운다. 이를 위해 cr 3 등록기의 현 
재값을 읽은 후 다시 같은 값을 쓴다. 펜티움 pro 이후의 프로쎄스에서는 대역이 아닌 
폐 지 (Global 기 발이 0인 폐지)의 TLB 입 구만 비 운다. 
flush_tlb 

모든 현재프로쎄스의 대역이 아닌 폐지에 대한 TLB 입구를 비운다. 이 과정에서 모 
든 CPU 는 _ flush_tlb 를 호출하도록 하는 처리기간 새치기를 받는다. 
flush _ tlb_mm 

지정한 폐지표의 대역이 아닌 모든 폐지에 대한 TLB 입구를 비운다. (《기억기서술 
자》를 참고) 다음에 보지만 다중처리기체계에서 CPU 두개 이상이 똑같은 페지표를 공 
유하는 프로쎄 스를 실 행할수도 있 다. 80 x 86 구성 방식 에 서 이 함수는 모든 CPU 에 서 지 
정한 페지표의 대역이 아닌 모든 폐지에 대한 국부 TLB 입구를 비우도록 한다. 


제 2 절. 기억기관리 

1절에서는 Linux 에서 80 x 86 의 토막화와 페지화회로를 리용하여 론리적인 주소를 
물리 적 인 주소로 변환하는것 을 보았다. 또한 주기억 의 일부분을 영 구적 으로 핵 심 부에 할 
당하여 핵 심 부코드와 핵 심 부의 정 적자료구조를 저 장하는데 사용한다는 점 도 언급하였 다. 

주기 억의 남은 부분을 동적 기 억 기 (dynamic memory ) 라고 부른다. 사실 전체 체 계 
의 성 능은 동적 기 억 기 를 얼마나 효률적 으로 관리 하는가에 달려있 다. 따라서 현재 의 모든 
다중과제 조작체계는 동적기 억기사용을 최 적화하고 필요할 때 에만 할당하며 가능한 빨리 
해제하려고 한다. 

1. 페지틀관리 

1절에서의 하드웨어폐지화에서 Intel 펜터움처리기가 폐지틀의 크기로 4 kB 와 4 MB 
또한 PAE 를 사용하는 경우 2 MB 라는 서로 다른 두 크기를 사용하는 방법을 보았다. 
Linux 는 이것들중 작은 폐지틀크기인 4 kB 를 표준 기억기할당단위로 채택한다. 이것은 
다음 두가지 리유로 작업을 간단하게 만들어준다. 
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. 페지화회 로가 발생시 킨 폐지절환례외를 쉽게 해 석 할수 있다. 폐 지가 존재하지만 
프로쎄스가 해 당 폐지 에 접근할 권한이 없거 나 폐지 가 존재하지 않는 경우 폐지절환이 
발생한다. 후자의 경 우 기 억 기할당자는 사용가능한 4 kB 폐 지 틀을 찾아서 프로쎄 스에 할 
당해 야 한다. 

■ 4 kB 는 대부분의 디스크블로크크기의 배수이다. 따라서 주기억기와 디스크사이의 
자료전송이 더 효률적 이 다. 아직 까지 는 4 kB 크기 가 4 MB 크기 보다는 다루기 쉽다. 

1) 폐 지 서 술자 

핵 심부는 매 폐지틀의 현재상태를 계속 유지해 야 한다. 례를 들어 프로쎄스에 소속 
된 폐지를 포함한 폐지틀과 핵심부코드나 핵심부자료구조체를 포함한 패지틀을 구별할수 
있어야 한다. 마찬가지로 동적기억기에 있는 폐지틀이 사용중인지 아닌지 알수 있어야 
한다. 동적 기 억 기 에 있는 폐지 틀에 쓸모있는 자료가 들어있지 않다면 이 페지 틀은 사용 
중이 아니다. 폐지틀에 사용자방식프로쎄스의 자료나 쏘프트웨어 캐쉬자료, 동적으로 할 
당한 핵 심 부자료구조체，장치구동프로그람의 완충용자료, 핵 심 부모둘의 코드 등이 들어 
있다면 이 폐지틀은 사용중이 다. 

struct page 형인 폐지서술자에 페지틀의 상태정보를 보관한다. 여기에는 표 4-2 에 
나오는 마당이 들어있다. 모든 패지서술자를 mem_map 배렬에 보관한다. 매 서술자의 크 
기는 64 byte 보다 작기때문에 mem_map 을 위해 주기억 1 MB 당 페지틀 4개가 필요하다. 


■ 4-2. _ 페지서술자에 있는 um 


형 

이 름 

설 명 

struct 

address space * 

mapping 

폐지를 페지캐쉬에 삽입할 때 사용한다. (《페 
지캐쉬》참고) 

pqoff_t 

index 

페지의 디 스크영상안에서 페지 가 저 장하고있는 
자료의 위 치 이 거 나 교환하여 내 보내 기 (swap 
out ) 페지식 별자이 다. 

atomic t 

mapcount 

페지표의 참조회수이다. 

atomic t 

count 

페지의 참조회수이다. 

page flags t 

flags 

기 발의 배 럴 이 다. (표 4-3 참고) 

struct list_head 

lru 

오래동안 사용하지 않은 폐지의 2중련결목록 
에 대한 지적자를 담는다. 

unsigned long 

private 

이 폐지가 완충기를 저장하고있을 때 사용한 
다.(《페지입 출력연산》를 참고) 

void * 

Virtual 

폐지 틀의 마지 막 1 GB 령역 에서의 선형 주소이 
다. ( 《페지틀 요청과 해제》를 참고) 
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우의 마당들중 일부는 페지틀이 사용중인가，어떤 핵심부구성요소가 해당 폐지틀을 
사용하는가에 따라 의미가 다르기때문에 여기서는 두 마당만 자세히 설명한다. 

_count 

해당 폐지의 사용참조회수이다. 이 값이 0이면 해당 패지틀을 사용하지 않고있으며 
어떤 프로쎄스에나 또는 핵심부 자기에 할당할수 있다. 한편 값이 0보다 크면 페지틀을 
프로쎄 스 하나이상에 할당하거 나 어 떤 핵 심 부자료구조체 를 보관하기 위해 사용하고있다. 
flags 

페지틀의 상태를 서술하는 기발을 최대 32개까지 포함하는 배럴이다. (표 4-3 참고) 
핵심부는 매 PG _ xyz 기발마다 해 당 값을 다루는 마크로를 몇가지 정의한다. 일반적 
으로 PageXyz 마크로는 기 발의 값을 반환하고 SetPageXyz 와 ClearPageXyz 마크로는 
각각 해당 비트를 1로 설정하거나 0으로 지운다. 


표 4-3. _ ■지 s 의 {jaia m 손-하는 기발 


기 발 명 

의 미 

PG locked 

디스크입출력 연산과 관련된 폐지 이 다. 

PG error 

폐 지 전송중 입 출력 오유가 발생 하였 다. 

PG referenced 

디스크입출력 연산을 위해 이 폐지를 최근에 접근하였다. 

PG_uptodate 

디스크입출력 오유가 발생하지 않고 읽기 작업을 마친 후에 이 기발을 
설정 한다. 

PG dirty 

페 지 를 수정 하였 다 . ( 《 try to swap out () 함수》를 참고) 

PGJrn 

패지 가 활성 또는 비 활성폐지목록에 들어 있다. (《오래동안 사용하지 
않은 목록》참고) 

PG_active 

폐지 가 활성패지목록에 들어있다. (《오래동안 사용하지 않은 목록》 
참고) 

PG slab 

폐지틀이 스램에 들어있다. (《기억기령역관리》참고) 

PG skip 

사용하지 않는다. 

PG highmem 

페 지 틀이 ZONE HIGHMEM 령 역 에 속한다. (《 기 억 기 령 역》참고) 

PG checked 

Ext 2 파일 체 계 에 서 사용하는 기 발이 다. 

PG arch l 

80 x 86 기본방식에서는 사용하지 않는다. 

PG reserved 

핵 심부코드용으로 예 약했거 나 사용할수 없는 폐지 틀이 다. 

PG_launder 

shrink _ cache () 에 의해 일어난 입출력 연산과 관련된 폐지 이 
다. (《 shrink _ cache () 함수》를 참고) 
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2) 기억기령역 

리상적인 콤퓨터구조에서 폐지틀은 어떤 용도로도(핵심부와 사용자자료를 보관하고 
디스크자료를 완충시키는 등) 사용가능한 기 억기저장단위 이 다. 어떤 종류의 자료를 담는 
폐지 이든 아무런 제 한없이 어 떤 패지틀에나 저장할수 있다. 하지만 실제 롬퓨터구조에는 
폐지틀을 사용하는 방식을 제한하는 하드웨어 제약이 있다. 특히 Linux 는 80 x 86 기본 
방식 에 있는 두가지 하드웨 어제 약을 처 리해 야 한다 

■ ISA 모선용직접기억기접근 ( DMA:Direct Memory Access ) 처리기는 주기억의 
처음 16 MB 만 접근할수 있다는 강한 제한이 있다. 

■ 많은 주기억을 가지는 최근의 32 bit 름퓨터 에서는 선형 주소공간이 너 무 작아서 
CPU 가 모든 물리 기억 기 에 직 접 접 근할수 없 다. 

Linux 는 이 런 제한을 다투려고 물리기억기를 세개 령역 ( zone ) 으로 조겐다. 

ZONE—DMA 

16 MB 아래의 기억기폐지를 포함한다. 

ZONE_NORMAL 

16 MB 부터 896 MB 까지의 기 억기폐지를 포함한다. 

ZONE — H 1 GHMEM 

896 MB 이상의 기억기폐지를 포함한다. 

ZONE _ DMA 령역 은 오래 된 ISA 기 반장치 에 서 DMA 를 리 용할 때 사용할수 있는 기 
억 기 페 지 를 포함한다. (직 접 기 억 기 접 근에 서 DMA 를 자세 히 설 명 한다) . 

ZONE _ DMA 와 ZONE _ NORMAL 령 역은 핵심부가 선형 주소공간의 마지막 1 GB 로 
선형배치하여 직접 접근할수 있는 일반 기억기폐지를 포함한다. 반면에 
ZONE _ HIGHMEM 령역 은 핵 심 부가 선형 주소공간의 마지 막 1 GB 로 선형 배 치 하여 직 접 
접근할수 없는 기 억기페 지 를 포함한다. 64 bit 구조에서는 ZONE _ HIGHMEM 령 역을 사용 
하지 않는다. 

각 기억기령역은 struct zone ( zone _ t 라는 이름도 있다)형인 자기만의 서술자를 가 
진다. 표 4-4 는 이 서술자에 있는 마당을 보여준다. 


표 4-4. _ S 역서술자에 있 fe 마당 


형 

이 름 

설 명 

char * 

name 

령 역 공식 이 름 (( DMA 와 Nomal , HighMem ) 

을 가리키는 지적자를 담는다. 

Spinlock t 

lock 

서술자를 보호하는 잠그기 

unsigned long 

free pages 

이 령역에 있는 사용하지 않는 폐지의 수 

unsigned long 

pages_min 

이 령 역 에서 사용하지 않고 남겨 두어 야 하는 
최소 페지의 수(《페지 틀해제》참고) 
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unsigned long 

pages_low 

이 령역의 패지균형 알고리듬에서 사용하는 림 
계 값(《폐지 틀해제》참고) 

unsigned long 

pages_high 

이 령역의 패지균형 알고리듬에서 사용하는 높 
은 림계값(《폐지틀해제》참고) 

free _ area_t [] 

free_area 

형 제 체 계 페 지 할당자에 서 사용한다. (《형제 체 
계 알고리듬》참고) 

struct pglist_data * 

zone_pgdat 

이 령역에 속해있는 마디서술자를 가리키는 

지적자 

struct page * 

zone _ mem_map 

이 령역에 있는 페지서술자의 배렬(《형제체 
계 알고리듬》참고) 

unsigned long 

zone _ start_pfn 

이 령역의 시작물리주소 


페지서술자의 zone 마당은 해당 폐지틀이 속한 령역의 서술자를 가러킨다. 

zone_names 배 럴 은 세 령 역 의 공식 이 름 ( 《 DMA 》와《 Nomal ) ，《 HighMem ) ) 
을 보관한다. 핵심부가 기억기 할당함수를 호출할 때 요청한 폐지틀을 담을 령역을 지정 
해야 한다. 일반적으로 핵심부는 어떤 령역을 사용하고 싶은가를 지정한다. 례를 들어 
선형 주소공간의 마지 막 1 GB 에 직 접 배 치 되 여 있 어 야 하지 만 ISA DMA 전송용으로 사용하 
지 않을 페 지 틀이라면 핵 심 부는 ZONE_NORMAL 이 나 ZONE_DMA 에 있는 폐 지 틀을 
요청한다. 응당 ZONE-NORMAL 에 여유폐지 틀이 더는 없을 때 에만 ZONE_DMA 에서 
폐지틀을 할당해 야 한다. 핵 심부는 기 억기 할당을 요청할 때 요구하는 령 역을 지정 하는데 
령역서술자지적자의 배럴인 struct zonelist ( zonelist_t 라는 이름도 있다.)자료구조를 사 
용한다. 

3) 불균등기억기접근 

일반적으로 콤퓨터의 기 억기를 균등한 ( homogeneous ) 공유자원이 라고 생각한다. 하 
드웨어캐쉬의 역할을 고려하지 않고 생각하면 한 CPU 가 기억기위치에 접근하는데 걸리 
는 시간은 기본적으로 물리주소의 위치나 CPU 에 상관없이 똑같다. 그러나 이런 가정이 
맞지 않는 구조도 있다. 례를 들면 일부 다중처리기 Alpha 나 MIPS 체계가 그렇다. 
Linux 에서는 불균등기억기접근 ( NUMA : Non_Uniform Memory Access ) 방식을 지원 
한다. 여기서는 한 CPU 에서 다른 기억기위치에 접근하는데 걸리는 시간이 틀릴수 있다. 

체계 에 있는 물리기억기는 여 러 마디 ( node ) 로 조개져 들어 간다. 어떤 CPU 가 한 
마디안에 있는 폐지 에 접근하는데 걸리는 시간은 똑갈지만 이 시간은 서로 다른 두 
CPU 사이에서는 틀릴수 있다. 핵심부는 어떤 CPU 가 가장 자주 접근하는 핵심부자료 
구조체를 보관하는 위치를 조심스럽게 선택하여 모든 CPU 가 시간이 오래 걸리는 마디 
에 접근하는 수를 최소화하려고 한다. 앞에서 본바와 같이 매 마디에 있는 물러기억기를 
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여 러 령 역으로 조갤수 있다. 매 마디는 pg _ data_t 형서술자를 포함한다. 표 4-5 는 이 서 
술자에 있는 마당을 보여준다. 모든 마디서술자를 단순히 련결목록에 보관하며 
pgdat_list 변수는 이 목록의 첫번째 항목을 가리킨다. 


표 4-5. _ 마 C 1 서술자에 있는 미당 


형 

이 름 

설 명 

zone t [] 

node zones 

마디에 있는 령역서술자의 배렬 

zonelist _ t [] 

node_zonelists 

페지할당자가 사용하는 
zonelist_t 자료구조의 배 렬 
(《폐지틀 요청과 해제》참고) 

int 

nr zones 

이 마디에 있는 령역의 수 

struct page * 

node mem map 

마디 에 있는 페지서술자의 배 럴 

struct bbotmem data * 

bdata 

핵심부초기화 단계에서 사용 

unsigned long 

node start pfn 

마디의 시작물리주소 

unsigned long 

node size 

마디 의 크기(폐 지 의 수) 

int 

node id 

마디의 식별자 

pg _ data_t * 

node_next 

마디목록의 다음항목 


마찬가지로 여기서는 주로 80 x 86 기본방식에 대하여 본다. IBM 호환 PC 에서는 균등 
기 억기접 근 ( UMA:Uniform Memory Access ) 방식을 사용하기때 문에 NUMA 지 원은 실 
제로 필요없다. 그렇지만 핵심부콤파일을 할 때 NUMA 지원을 빼더라도 Linux 는 체계 
에 있는 모든 물리 기억 기 를 포함하는 마디 하나를 사용한다. 해 당 서 술자는 
contig _ page_data 변수에 들어있 다. 

80 x 86 기 본방식 에서 물러 기 억 기 (physical memory ) 를 마디 하나로 모으는것은 쓸 
데없는 일처 럼 보일수 있다. 그렇지 만 이 런 접근은 핵 심부가 모든 구조에서 물리 기 억기 
가 마디 하나 이상에 나누어 들어간다고 가정할수 있으므로 기억기관리를 하는 코드의 
호환성을 높여준다. 

4) 기 억기관리자료구조체의 초기화 

그림 4-13 은 동적기억기와 이것을 참조하는데 사용하는 값을 보여준다. 기억기의 
여러 령역을 일정한 비례로 그렸다. 
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예약됨 



그림 4-13. 기억기배치 

이미 1절에 있는《핵심부페지표》에서 paging _ init () 함수가 체계에 있는 주기억의 
크기에 따라 어떻게 핵심부페지표를 초기화하는가에 대하여 설명하였다. paging _ in . it () 
함수는 페지표외에 기억기를 다투는 다른 자료구조체도 초기화한다. 이 함수는 
kmap _ init () 함수를 호출하여 핵심부가 ZONE_HIGHMEM 령 역에 접근할수 있도록 선형 
주소의 창 ( window ) 을 만드는 kmap_pte 변수를 설정 한다. (《 림시핵심부배 치》를 참고) 
그후 3가지 기 억기 령 역의 크기를 보관하는 배 렬을 과라메터 로 해서 free _ area _ in.it () 함 
수를 호출한다. 

打 ee _ area _ init () 함수는 령역서술자와 폐지틀서술자를 모두 초기화한다. 이 함수는 
각 기 억기 령 역의 크기를 나타내는 zones_size 배렬을 파라메 터로 받고 다음과 같은 작업 
을 수행 한다. 

1. zones_size 에 있는 값을 모두 더 해서 주기억 에 있는 전체 패지틀의 수를 계산하 
고 그 결과를 국부변수 totalpages 에 보관한다. 

2. 패지서술자의 ac 仕 ve_list 와 inactive_list 목록을 초기화한다. 

3. 폐지서술자의 mem_inap 배렬용으로 공간을 할당한다. totalpages 에 페지서술자 
의 크기를 곱한 크기만큼의 공간이 필요하다. 

4. contig _ page_data 마디서술자에 있는 마당 몇개를 초기화한다. 
calculate _ zone _ totalpages ( pgdat , zones _ size , zholes _ size ) ; 

5. 모든 페지서술자의 마당 몇개를 초기화한다. 
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node_al loc_mem_map (pgdat) ； 

6. 기억기령역서술자의 주소를 국부변수 zone 에 보관하고 zone_names 배렬에 있 
는 매 항목마다 ( j 는 0 에서 2까지) 다음 단계 를 수행 한다. 

a. 서술자의 마당 몇개를 초기화한다. 

b . 령 역 이 비 여있다면(즉 폐지틀이 하나도 없으면) 6단계의 처음으로 되돌아가 다 
음령역으로 넘어간다. 

c. 령역에 폐지틀이 하나라도 있으면 령역서술자의 pages_min 과 pages_low, 
pages_high 마당을 초기화한다. 

d. 령역서술자의 zone_mem_map 마당을 령역에 있는 첫번째 페지서술자의 주소로 
설정 한다. 

e. 령역서술자의 zone_start_pfn 마당을 령역에 있는 첫번째 패지틀의 물리주소로 
설정 한다. 

f. 령역내에 있는 모든 페지틀의 페지서술자에 있는 zone 마당에 령역서술자의 주소 
를 저장한다. 

g . 령역이 ZONE_DMA 이나 ZONE_NORMAL 이라면 령역내에 있는 모든 폐지서 
술자의 virtual 마당에 패지틀을 배 치하는 마지막 1GB 공간에서의 선형주소를 저장한다. 

h. 령역서술자의 free_area 배렬에 있는 free_area_t 구조체를 초기화한다(《형제체 
계알고리듬》을 참고) . 

paing_init() 함수를 마칠 때에는 모든 페지에 PG_reserved 기발이 설정된 상태이기 
때문에 아직 동적기억기를 사용할수 없다. paging_init() 을 실행한 후에 호출하는 
mem_init( ) 함수에서 추가로 기 억기초기화작업을 수행 한다. 

기본적으로 mem_init() 함수는 체계에 존재하는 전체 페지틀수인 num_physpages 
의 값을 초기화한다. 다음으로 동적기억기에 속하는 모든 패지틀을 훑어본다. 매 폐지틀 
마다 해당 서술자의 count 마당을 1 로 설정하고 PG_reserved 기발을 지우고 페지 틀이 
ZONE_HlGHMEM 령 역 에 속하면 PG_highmem 기 발을 설정 한 후 이 패 지 틀에 대 해 
nr_free_page() 함수를 호출한다. nr_free_page() 는 폐지틀을 해제하는것외에도(뒤에 
나오는 《 형제체계알고리듬》을 참고) 해 당 폐지 틀을 소유한 기 억기 령 역서 술자의 
free_pages 마당의 값도 증가시킨다. 모든 령역서술자에 있는 free_pages 마당은 
nr_free_pages() 함수에서 동적기억기에 있는 사용하지 않는 전체 페지틀수를 계산하는 
데 사용한다. 

memJnitO 함수는 동적기 억기에 속하지 않는 폐지틀의 수도 센다. 핵심부를 름파일 
할 때 만들어지는 여러 기호에 의해 하드웨어와 핵심부 코드， 핵심부자료용으로 예약된 
페지틀의 수와 핵심부초기화과정에서 사용하고 초기화를 마친후 해제할수 있는 폐지틀의 
수를 계 산할수 있 다 . ( 《 예 약된 폐 지 틀》을 참고) 
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5) 폐지틀요청과 해제 

조금씩 다른 함수 6개 와 마크로를 리 용하여 폐 지 틀을 요청할수 있 다. 별도로 언급 
하지 않으면 할당한 첫번째 폐지의 선형 주소나 할당이 실패한 경우 NULL 을 반환한다. 
alIoc_pages ( gfp _ mask , order ) 

련속된 폐지틀 2° rfei ■개를 요청할 때 사용하는 함수이다. 할당한 첫번째 폐지의 선형 
주소나 할당이 실패한 경 우 NULL 을 반환한다. 
al loc_page ( gfp _ mask ) 

페지틀 하나를 엄을 때 사용하는 마크로이다. 이 마크로는 다음과 같이 변환된다. 
alloc_page ( gfp _ mask , 0) 

이 마크로는 할당한 폐 지 틀의 서 술자주소나 할당이 실패한 경 우 NULL 을 반환한다. 
— get _ free_pages ( gfp _ mask , order ) 

alloc _ pages () 와 비슷하지만 할당한 첫번째 폐지 틀의 선형주소를 반환한다. 

— get _ free_page ( gfp _ mask ) 

페지틀 하나를 얻을 때 사용하는 마크로이다. 이 마크로는 다음과 같이 변환된다. 

— get _ free_pages ( gfp _ mask , 0) 

get _ zeroed _ page ( gfp _ mask ) 또는 이와 동일 한 get _ free _ page ( gfp _ mask ) 

이 함수는 다음을 호출한다. 

alloc _ pages ( gfp _ mask , 0) 

다음으로 할당받은 폐지틀을 0으로 채운다. 

— get _ dma_pages ( gfp _ mask , order ) 

DMA 용으로 적합한 폐지틀을 얻을 때 사용하는 마크로이다. 이 마크로는 다음과 
같이 변환된다. 

— get _ free_pages ( gfp_mask 1— GFP _ DMA , order ) 

gfp _ mask 는 여유폐지틀을 어떻게 찾겠는가를 지정하며 다음기발로 구성된다. 

_ GFP _ WAIT 

핵심부는 사용하지 않는 페지틀이 생기기를 기다리며 현재프로쎄스를 차단할수 있다. 
_ GFP _ HIGH 

핵심부는 기억기가 아주 적게 남은 상태에서 복구하려고 남겨둔 여유패지틀의 보관 
고에 접근할수 있다. 

_ GFP _ IO 

핵 심 부는 폐 지 틀을 해 제 하기 위해 낮은 주소에 있는 기 억 기 폐 지 에 대 해 입 출력 전송 
을 수행할수 있 다. 

_ GFP _ H 1 GH 10 

핵 심 부는 폐 지 틀을 해 제 하기 위해 높은 주소에 있는 기 억 기 폐 지 에 대 해 입 출력 전송 
을 수행할수 있 다. 
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_GFP_ FS 

핵 심 부는 저 수준 VFS 연산을 수행할수 있 다. 

—GFP_DMA 

ZONE_DMA 령역에 들어있는 패지틀을 할당해야 한다(앞에서 본 《기억기령역》을 
참고). 

_GFP_H1GHMEM 

ZONE_HIGHMEM 령역 에 들어있는 폐 지 틀을 할당해 도 된 다. 

Linux 는 실제로 이 기발을 개별적으로 사용하기 보다는 표 4-6 에 렬거한 미리 정 
의 한 기 발조합을 사용한다. 폐지할당함수 6개를 호출하면서 파라메터를 전달할 때 실제 
로 마주치는것은 이 그롭명 이 다. 


H 4-6. ■지틀을 ᄈ할 때 사용하는 기발값의 그룸 


그룹 명 

해 당 기 발 

GFP—ATOMIC 

GFP HIGH 

GFP NOIO 

GFP HIGH GFP WAIT 

GFP NOHIGHIO 

GFP HIGH GFP WAIT GFP IO 

GFP NOFS 

GFP HIGH GFP WAIT GFP IO GFP HIGHIO 

GFP_KERNEL 

GFP HIGH GFP WAIT GFP IO GFP HIGHIO 

GFP FS 

GFP_NFS 

GFP HIGH GFP WAIT GFP IO GFP HIGHIO 

GFP FS 

GFP KSWAPD 

GFP WAIT GFP IO GFP HIGHIO GFP FS 

GFP USER 

GFP WAIT GFP IO GFP HIGHIO GFP FS 

GFP_HIGHUSER 

GFP WAIT GFP IO GFP HIGHIO GFP FS G 

FP—HIGHMEM 


_GFP_DMA 와 _GFP_HIGHMEM 기발을 가리 켜 령역 변경자 (zone modifier) 라 
고 하는데 사용하지 않는 폐지틀을 찾을 때 핵심부가 검색할 령역을 지정한다. 
contig_page_data 마디서술자의 node_zonelists 마당은 령역서술자목록의 배렬이다. 각 
목록은 령역변경자의 특정조합 하나와 련결된다. 이 배렬에는 항목이 16개 있지만 령역 
변경자가 2개뿐이므로 실제로 4개만 사용한다. 이것을 표 4-7 에서 보여준다. 
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표 4-7. _ 령억 WgX [■목복 


GFP DMA 

GFP HIGHMEM 

령역 목록 

0 

0 

ZONE NORMAL + ZONE DMA 

0 

1 

ZONE_HIGHMEM + ZONE_NORMAL + ZON 

E DMA 

1 

0 

ZONE DMA 

1 

1 

ZONE—DMA 


페 지 틀을 해제할 때 에는 다음 4개 함수나 마크로중 하나를 사용할수 있다. 

— free_pages ( page , order ) 

이 함수는 page 가 가리키는 페지서술자를 검사한다. 그래서 예약된 폐지틀이 아니 
면 (즉 PG _ reserved 기발이 0이면) 서술자의 count 마당을 감소시킨다. count 가 0이면 
page 부터 시작하는 련속된 페지틀 2 Mdel ■개를 사용중이 아니라고 간주한다. 이 경우 이 
함수는 _ free _ pages _ ok () 를 호출하여 첫번째 여유폐지의 페지틀서술자를 적절한 여유 
폐지틀의 목록에 추가한다. 
free_pages ( addr , order ) 

이 함수는 _ free _ pages () 와 비슷하지만 해제할 첫 페지틀의 선형주소 addr 을 파 
라메터 로 받는다는 차이 가 있 다. 

_ free _ page ( p ) 

이 마크로는 page 가 가리 키 는 서 술자를 포함하는 페 지 틀을 해 제 하며 다음코드로 확 
장된 다. 

— free_pages ( page , 0) 
f ree_page ( addr ) 

이 마크로는 선형주소 addr 을 포함하는 페지 틀을 해제 하며 다음코드로 확장된다. 
free_pages ( addr , 0) 

6) 웃자리 기억 기 폐 지 틀의 핵 심부배 치 

896 MB 경계우에 있는 폐지틀은 핵심부선형주소공간의 마지막 1 GB 로 배치되지 않으 
므로 핵심부는 이 폐지틀에 직접 접근할수 없다. 즉 할당한 폐지틀의 선형주소를 반환하 
는 모든 폐 지 할당자함수는 웃자리 기억 기 (higli memory ) 에 서 동작하지 않는다. 

례를 들어 핵심부가 _ get _ free _ pages ( GFP _ HIGHMEM , 0) 를 호출하여 웃자러기 
억 기 에 있는 폐 지 틀을 할당한다고 하자. 할당자가 웃자리 기억 기 에 있는 폐 지 틀을 할당하 
면 get free pages 0는 해당 패지틀의 선형주소가 존재하지 않아서 반환할수 없으므 
로 NULL 을 반환한다. 게다가 핵심부는 해당 폐지를 추적할수 없으므로 할당한 폐지틀 
을 해 제할수 없 다. 

간단히 말해서 웃자리기억기폐지틀을 할당할 때에는 alloc _ pages () 함수와 더 간단 
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한 alloc_page() 함수만을 사용해 야 한다. 두 함수는 할당한 첫 번째 폐지 틀의 페지서술 
자의 주소를 반환한다. 일단 할당한 후에는 해당 폐지틀의 물리주소가 4GB 를 넘는다고 
하더 라도 선형주소공간의 마지막 1GB 로 배 치해 야 한다. 

이 를 위 해 핵 심 부는 영 구핵 심 부배 치 (permanent kernel mapping) , 림 시 핵 심 부배 치 
(temporary kernel mapping) , 불련속적인 기억기 할당 (noncon 社 guous memory 
alloca 社 on) 이라는 3가지 서로 다른 방법을 사용한다. 여기서는 처음 두 기법에 초점을 
두고 세번째 기법은 후에 《불련속적인 기억기령역관리》에서 고찰한다. 

영구핵심부배치을 할 때에는 현재프로쎄스를 차단할수도 있다. 이것은 웃자리기억기 
에 있는 폐지틀에 대한 창으로 사용할 여유페지표입구점이 없을 때 일어날수 있다. 따라 
서 새치기처리기나 미룰수 있는 함수는 영구핵심부배치를 사용할수 없다. 반면에 림시핵 
심부배치는 절대로 현재프로쎄스를 차단하지 않는다. 그러나 부족점은 매우 적은 수의 
림시핵심부배치만 동시에 할수 있다는점이다. 

물론 이 방법 중 어 느것 도 주기억 전체 에 동시 에 접 근할수 있게 하지 않는다. 결국 
PAE 는 체계 가 주기억을 최대 64GB 까지 가질수 있게 지원하지만 웃자리기억기를 배 치 
할수 있는 선형주소공간은 128MB 뿐이다. 

ᄋ 영구핵심부배치 

영구핵 심부배 치는 핵 심부가 웃자리기억기 폐지 틀을 핵 심 부주소공간으로 오래동안 배 
치할수 있게 한다. 영구핵심부배치는 전용 페지표을 사용한다. 이 페지표의 주소는 pkm 
ap_page_table 변수에 들어있 다. LAST_PKMAP 마크로는 이 페 지 표에 들어 가는 입 구 
점 의 수를 지 정한다. 알고있는것 처 럼 페 지 표에 는 PAE 사용여부에 따라 입 구점 이 512개 
나 1( 指4개 들어 간다. (1 절의 《 물리 주소확장페지 화기구》를 참고) 따라서 핵 심부는 한번 
에 2MB 나 4MB 의 웃자리 기억 기 에 접 근할수 있 다. 이 페 지 표는 PKMAP_BASE (일 반적 
으로 0xff600000) 부터 시 작하는 선형주소를 배치한다. 웃자리기억기 에 있는 첫번째 페 
지 틀에 해 당하는 서 술자의 주소는 highmem_start_page 변수에 들어있 다. 

pkmap_count 배럴은 pkmapj)age_table 페 지표에 있는 매 입구점 마다 하나씩 
LAST_PKMAP 개의 계수기를 포함한다. 이 계수기의 값에 따라 3가지 경우로 나눌수 
있 다. 

계수기 0 

해당 폐지표 입구점는 어떤 웃자리 기억기폐지틀도 배치하지 않고 사용할수 있다. 

계수기 1 

해 당 페지 표입 구점은 어떤 웃자리 기 억기폐지 틀도 배 치하지 않지 만 이것을 마지막으 
로 사용한 후에 해 당 TLB 입구점을 비우지 않아서 사용할수 없다. 

계수기 n(n > 1) 

해 당 페지 표입구점은 웃자리 기 억기폐지 틀을 배 치 하며 핵 심부구성요소 n-1 개 에서 
사용한다. kmapO 함수는 영구핵심부배치을 만든다. 이것은 기본적으로 다음코드와 동 
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등하다 . 

void *kmap (struct page *page) 

{ 

might_sleep () : 

if (page < highmem_start_page) 

return page_address (page) : 
return kmap_high (page); 

} 

페지서술자의 virtual 마당은 페지틀을 배치하는 마지막 1GB 내의 선형주소가 있으면 
이것을 저장한다 . 따라서 896MB 경계밑에 있는 모든 폐지틀에서 virtual 마당은 폐지틀 
의 물러주소에 PAGE_OFFSET 을 더한 값을 담는다 . 반면에 웃자러기억기에 있는 페지 
틀에서 이 마당은 폐지틀을 영구핵심부배치나 림시핵심부배치로 하는 경우에만 NULL 
이 아닌 값을 담는다 . 

kmapO 함수는 폐지틀이 실제로 웃자러기억기에 속한 경우 kmap_high () 함수를 호 
출한다 . 이 함수는 기본적으로 다음코드와 동등하다 . 
void fastcall *kmap_high (struct page *page) 

{ 

unsigned long vaddr ； 


spin_lock (&kmap_lock) : 

vaddr = (unsigned long) page_address (page); 
if (! vaddr) 

vaddr = map_new_virtual (page) : 
pkmap_count [PKMAP_NR (vaddr) ] ++; 
if (pkmap_count [PKMAP_NR (vaddr)] < 2) 
BUG ()； 

spin_unlock ( 沒 kmap_lock) : 
return (void*) vaddr ； 


이 함수는 kmap_lock 스핀잠그기를 획득하여 다중처리기체계에서 페지표를 동시에 
접근하지 않도록 보호한다 . kmapO 함수를 새치기처리기나 미룰수 있는 함수에서 호출 
할수 없기때문에 새치기를 금지할 필요는 없다 . 다음으로 kmap_high() 함수는 패지서술 
자의 virtual 마당이 NULL 이 아닌 선형주소를 포함하는지 검사한다 . 

NULL 이라면 map_new_vittual 0 함수를 호출하여 pkmap_page_table 에 있는 입 
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구점에 폐지틀의 물리주소를 삽입한다 . 다음으로 kmap_high() 함수는 다른 핵심부구성 
요소가 해당 페지틀을 사용할수 있으므로 폐지틀의 선형주소에 해당하는 계수기를 하나 
증가시킨다 . 마지막으로 kmap_lock 스핀잠그기를 해제하고 해당 페지를 배치하는 선형 
주소를 반환한다 . 

map_new_virtual 0 함수는 기본적으로 중첩된 순환 두개를 실행 한다 . 


start ： 

count = LAST_PKMAP ； 
for (;;) { 

last_pkmap_nr = (last_pkmap_nr + 1) & LAST_PKMAP_MASK ； 
if (! last_pkmap_nr) { 

flush_all_zero_pkmaps 0; 
count = LAST_PKMAP ； 

} 

if (! pkmap_count [last_pkmap_nr]) 
break ； 
if (—count) 

continue ； 

{ 

DECLARE_WAITQUEUE (wait, current) ； 
_set_current_state(TASK_UNINTERRUPTIBLE )； 
add_wait_queue (&pkmap_map_wait, & wait) ； 
spin_unlock (技 kmap_lock); 
schedule 0 ； 

remove_wait_queue(&pkmap_map_wait, Swait); 
spin_lock (技 kmap_lock) ； 
if (page_address (page)) 

return (unsigned long) page_address (page) ； 
goto start ； 

} 

} 

안쪽 순환에서는 pkmap_count 에 있는 모든 계수기를 검색하여 0 인 값을 찾는다 . 
last_pkmap_nr 변수는 pkmap_page_table 폐지표에서 마지막으로 사용한 입구점의 색인 
을 보관한다 . 따라서 이전에 map_new_virtual 0 함수를 호출했을 때 빠져나갔던 위치 
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부터 검색을 시작한다 . 

pkmap_count 에 있는 마지막 계수기에 도달하면 색인 0 에 있는 계수기부터 검색을 
다시 한다 . map_new_virtual () 함수는 검색을 계속하기 전에 
flush_aIl_zero_pkmaps 0 함수를 호출한다 . 이 함수는 값이 1 인 계수기를 찾는 다른 
검색을 시작한다 . 계수기값이 1 이면 pkmap_page_tabla 있는 해당 입구점을 사용하지 
않고있지만 해당 TLB 입구점을 비우지 않아서 이것을 사용할수 없음을 의미한다 . 그래 
서 flush_all_zero_pkmaps() 를 호출하여 이런 입구점에 대한 TLB 를 비우고 계수기를 
0 으로 만든다 . 

안쪽순환이 pkmap_count 에서 값이 0 인 계수기를 찾지 못하면 map_new_ 
virtual() 함수는 다른 프로쎄스가 pkmap_page_table 페지표에 있는 입구점을 해제할 
때까지 현재프로쎄스를 차단한다 . 이것은 current 를 pkmap_map_wait 대기렬에 삽입하 
고 current 의 상태를 TASK_UNINTERRUPTIBLE 로 설정한 후 schedule() 함수를 
호출하여 CPU 를 반납함으로써 이루어진다 . 일단 프로쎄스가 깨여나면 이 함수는 폐지 
서술자의 virtual 마당을 보고 다른 프로쎄스가 이미 해당 폐지를 배치했는가를 검사한 
다 . 아직 다른 어떤 프로쎄스도 폐지를 배치하지 않았다면 안쪽순환을 다시 시작한다 . 

안쪽순환에서 0 인 계수기를 발견하면 map_new_virtual() 함수는 다음을 실행한다 . 

1. 계수기에 해당하는 선형주소를 계산한다 . 

2. 패지의 물리주소를 pkmap_page_table 에 있는 입구점에 기록한다 . 또한 같은 입 
구점의 Accessed ( 접근 ), Dirty ( 불결 ), Read/Wlite ( 읽기 / 쓰기 ) ， Present ( 존재)비트 
를 설정한다 . 

3 . pkmap_count 계수기를 1 로 설정한다 . 

4. 선형주소를 페지서술자의 virtual 마당에 기록한다 . 

5. 선형주소를 되돌린다 . 

kunmapO 함수는 영구핵심부배치을 제거한다 . 이 함수는 폐지가 실제로 웃자리기 
억기령역에 있으면 kunmap_high() 함수를 호출한다 . 이 함수는 기본적으로 다음코드 
와 동등하다 . 


void fastcall kunmap_high (struct page *page) 

{ 

unsigned long vaddr ； 
unsigned long nr ； 
int need_wakeup : 

spin_lock (&kmap_lock) : 

vaddr = (unsigned long) page_address (page); 
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if Ovaddr) 

BUG ()； 

nr = PKMAP_NR(vaddr )； 

need_wakeup = 0 ； 

switch (—pkmap_count [nr]) { 

case 0 ： 

BUGO : 
case 1 ： 

need_wakeup = waitqueue_ac^ive(&pkmap_map_wait); 

} 

spin_unlock (沒 kmap_lock) : 

if (need_wakeup) 

wake_up (&pkmap_map_wait) : 


페지표입구점의 계수기가 1( 사용하지 않음)이 되면 kunmap_high() 는 

pkmap_map_wait 대기 렬 에서 대기중인 프로쎄스를 깨운다 . 

ᄋ 림시핵심부배치 

림시핵심부배 치의 구현은 영구핵심부배 치보다 간단하다 . 게 다가 현재프로쎄 스를 차 
단하는 일이 결코 없으므로 새치기처리기와 미룰수 있는 함수에서도 사용할수 있다 . 

웃자리기억기 에 있는 어떤 패지틀이든 핵심부주소공간에 있는 창 즉 이 목적을 위 해 
예약해놓은 페지표입구점을 통해 배치할수 있다 . 림시핵심부배치용으로 예약한 창의 수 
는 매우 적다 . 

enum km_type { 

KM_BOUNCE_READ , 

KM_VSTACK_BASE, 

KM_VSTACK_TOP = KM_VSTACK_BASE + STACK_PAGE_COUNT-l, 
KM_LDT_PAGE15, 

KM_LDT_PAGE0 = KM_LDT_PAGE15 + 16-1, 

KM_USER_COPY, 

KM_VSTACK_HOLE, 

KM_SKB_SUNRPC_DATA, 
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KM_SKB_DATA_SOFTIRQ , 

KM—USERO, 

KM_USER1, 

KM_BIO_SRC_IRQ, 

KM_BIO_DST_IRQ, 

KM_PTEO, 

KM_PTE1, 

KM_IRQO, 

KM_IRQ1, 

KM_SOFTIRQO, 

KM_SOFTIRQl, 

KM—CRASHDUMP, 

KM_UNUSED, 

KM_TYPE_NR 

}； 

핵심부는 두 핵심부조종경로가 동시에 같은 창을 사용하지 않게 해 야 한다 . 따라서 
해당 창을 사용할수 있도록 허가한 핵심부구성요소의 이름을 따라 기호의 이름을 지었다 . 
마지막기호인 KM_TYPE_NR 은 선형주소가 아닌 모든 CPU 가 사용할수 있는 서로 다 
른 창의 수를 나타낸다 . 

마지막을 제외한 km_type 에 있는 매 기호는 고정배치하는 선형주소의 색인이다 
( 《 고정배 치하는 선형 주소》를 참고 ). enum fixed_addresses 자료구조체는 
FIX_KMAP_BEGIN 과 FIX_KMAP_END 기호도 정의 한다 . FIX_KMAP_END 는 
FIX_KMAP_BEGIN + (KM_TYPE_NR*NR_CPUS) - 1 값을 가전다 . 이런 식으로 체 
계 에 있는 각 CPU 마다 고정 배치 하는 선형 주소가 KM_TYPE_NR 개 있 다 . 핵 심부는 
kmap_pte 변수를 fix_to_virt(FIX_KMAP_BEGIN ) 선형주소에 해당하는 페지표입구점 
의 주소로 초기화한다 . 

림시핵심부배치을 만들 때에는 kmap_atomic 0 함수를 호출한다 . 이 함수는 기본적 
으로 다음코드와 같다 . 


void *kmap_atomic (struct page *page, enum km_type type) 

{ 

enum fixed_addresses idx ； 
unsigned long vaddr ； 
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if (page < highmem_start_page) 

return page_address (page); 

idx = type + KM_TYPE_NR*smp_processor_id() : 
vaddr = _f ix_to_virt (FIX_KM AP_BEGIN + idx )； 

tifdef CONFIG_DEBUG_HIGHMEM 
if (! pte_none (* (kmap_pte-idx))) 

BUGO : 

#endif 

if (PageReserved (page)) 

set_pte (kmap_pte-idx, mk_pte(page, kmap_prot_nocache)) : 

else 

set_pte (kmap_pte-idx, mk_pte(page, kmap_prot)) : 

— f lush_tlb_one (vaddr) : 

return (void*) vaddr ； 

} 

type 파라메터와 CPU 식 별자는 요청한 폐지를 배 치 하기 위 해 어떤 고정배치 하는 선 
형주소를 사용하겠는가를 지정한다 . 이 함수는 해 당 패지틀이 웃자리기억기 에 속하지 않 
으면 폐 지 틀의 선형 주소를 반환한다 . 웃자리 기억 기 에 속하면 고정 배치 하는 선형 주소에 
해당하는 페지표입구점을 해당 페지의 물리주소와 함께 Present ( 존재 ) ， Accessed (접 
근 ) ， Read/Wnte ( 읽기 / 쓰기 ) ， Dirty ( 불결)비트로 설정한다 . 마지막으로 선형주소에 해 
당하는 TLB 입구점을 비운다 . 

림시 핵심부배치를 해제할 때에는 kunmap_atomic () 함수를 사용한다 . 80x86 기본 
방식에서 이 함수는 아무일도 하지 않는다 . 

림시핵 심부배 치는 조심해서 사용해 야 한다 . 림시핵심부배 치을 사용하는 핵 심부조종 
경로는 차단되여서는 안된다 . 차단되면 다른 핵심부조종경로가 같은 창을 사용하여 다른 
웃자리기억기폐지를 배 치 할수 있기때 문이 다 . 

7) 형제체계알고리듬 

핵심부는 련속적인 폐지틀그름을 할당하는 견고하고 효률적인 방책을 세워야 한다 . 
이때 기억기관리와 관련한 유명 한 문제인 외부단편화 (external fragmentation ) 를 해결 
해야 한다 . 외부단편화는 다른 크기의 련속적인 페지틀그롭을 빈번하게 할당하고 해제하 
여 할당한 폐지틀블로크사이에 작은 여유폐지틀 여러개가《산재》하는 현상이다 . 그 결 
과 후에는 큰 크기의 련속된 폐지틀할당을 요청할 때 이것을 담을 충분한 여유패지 가 있 
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어도 기억기를 할당하지 못할수 있다. 

이러한 외부단편화를 피할수 있는 방법은 기본적으로 두가지이다. 

- 페지화회로를 리용하여 불련속적인 여유폐지틀의 그름을 련속된 선형주소구간 
에 배 치 한다. 

- 남아있는 련속된 여유폐지틀블로크를 관리하는 적절한 기법을 개발하여 작은 
블로크를 요청할 때 큰 여 유블로크를 조개 서 할당하는 경 우를 가능한 줄인 다. 

핵심부는 다음 3가지 러유때문에 두번째 접근법을 요구한다. 

- 련속된 선형주소로는 요청 을 처 리할수 없고 실제 로 련속된 패지틀이 필요한 경 
우가 종종 있다. 전형적 인 실례 는 DMA 처 리기 에 할당할 완충용기억기를 요청 하는것 이 
다. 입출력연산 한번으로 여러 디스크분구를 전송할 때 DMA 는 폐지화회로를 무시하고 
주소모선에 직 접 접 근하므로 요청한 완충기 는 련속된 폐 지 틀에 있 어 야 한다. 

- 련속된 폐지틀이 꼭 필요한 경우가 아니라도 련속된 폐지틀을 할당하면 핵심부 
페지표을 수정하지 않아도 되므로 큰 리득이 된다. 앞에서 본바와 같이 폐지표을 빈번 
하게 수정하면 CPU 가 변환참조완충기의 내 용을 비워 야 하므로 평 균기 억 기접근시 간이 
늘어 난다. 

- 핵심부는 4 MB 크기의 패지를 활용하여 매우 큰 련속인 물러기억기에 접근할수 
있다. 이것은 4 kB 폐지를 사용할 때와 비교하면 변환참조완충기실패 ( miss ) 가 줄어들어 
평 균기 억 기 접 근시 간을 현저 히 향상시 켜 준다 . ( 《 변환참조완충기 >참고) 

Linux 는 외부단편화문제를 해결하기 위해 유명한 형제체계 (buddy system ) 알고리 
듬에 기초한 기법을 채택하였다. 사용하지 않는 모든 폐지틀을 그룹별로 묶어서 블로크 
목록 10개에 넣는다. 각 목록은 련속된 폐지틀 1, 2, 4, 8, 16, 32, 64, 128, 256, 
512개 로 구성 된 그룹을 담는다. 블로크의 첫 번째 폐 지틀의 물리 적 인 주소는 그를크기 의 
배수이다. 례를 들어 16-페지틀의 시작주소는 16 X 2 12 의 배수이다(2 12 =4096으로 정규페 
지 크기 이 다) . 

간단한 실례를 통해 이 알고리듬이 어떻게 동작하는가에 대하여 보기로 하자. 

누군가 련속된 페지틀 128개로 구성된 그를(즉 512 kB ) 을 요청하였다고 하자. 이 
알고리듬은 먼저 128-페지틀목록에 여유블로크가 있는가를 검사한다. 여유블로크가 없 
으면 다음으로 큰 블로크 즉 256-페지틀목록에서 여유블로크를 찾는다. 여기서 여유블 
로크를 발견하면 폐지 틀 256개중에서 128개를 요청한쪽으로 할당하고 나머지 폐지틀 
128개를 여유128폐지틀블로크목록에 추가한다. 여유256-폐지볼로크목록에 없다면 다음 
으로 큰 블로크，즉 512-페지틀에서 블로크를 찾는다. 여기서 블로크를 찾으면 폐지틀 
512개중 128개를 요청한 쪽으로 할당하고 나머지 384개중 처음 256개를 여유 256-페 
지틀블로크목록에，남은 폐지틀 128개를 여유128-페지틀블로크의 목록에 넣는다. 512 
폐지틀블로크목록이 렁비여있다면 할당을 포기하고 여러 상태를 알려준다. 

반대작업 인 폐지틀블로크를 해제하는데서 이 알고리듬의 이름이 유래되 였다. 핵 심부 
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는 크기가 b 인 이웃한(형제) 여유블로크쌍을 크기가 2 b 인 더 큰 블로크 하나로 만들려 
고 한다. 다음 조건을 만족하면 두 블로크는 형제블로크이다. 

• 두 블로크의 크기 가 똑같이 b 이 다. 

■ 두 블로크가 련속된 물리적 인 주소에 위치한다. 

• 첫번째 블로크의 첫번째 폐지틀의 물리주소는 2 XbX 2 12 의 배수이다. 

이 알고리듬은 순환적 이다. 핵 심부는 해제된 블로크를 합친 후에 건의 값을 두배로 
늘여 더 큰 블로크를 만들려고 한다. 

o 자료구조 

Linux 는 매 령역마다 서로 다른 형제체계를 사용한다. 따라서 80 x 86 기본방식에서 
는 3가지 형제체계가 있다. 첫째는 ISA _ DMA 용으로 적합한 폐지틀을 다루며 둘째는 
보통페지틀을，셋째는 웃자러기 억기패지틀을 다룬다. 각 형제체계는 다음과 갈은 핵심자 
료구조체에 기초한다. 

■ 앞서 소개한 mem _ map 배렬，실제로 매 령역은 mem _ map 에 있는 항목의 일부분 
과 관련이 있다. 령역서술자의 zone _ mem _ map 과 size 마당은 각각 이 일부분의 첫번째 
항목과 항목의 개수를 지정한다. 

■형이 打 ee _ area 인 요소 10개를 포함하는 배렬, 각 그룹크기마다 항목이 하나씩 
있다. 령역서술자의 free _ area 마당은 이 배럴을 보관한다. 

■ 비트배치 ( bitmap ) 라는 이전 배렬 10개 , 매 그롭크기마다 배럴이 하나씩 있다. 각 
형제체계는 자기만의 비트배치집합이 있으며 이것으로 자기가 어떤 블로크를 할당했는가 
를 관리한다. 

다음과 같이 free _ area 자료구조체를 정의 한다. 

struct free_area { 

struct list_head free — list ； 


령 역서술자에 있는 free _ area 배 럴의 k 번째 요소는 크기 가 2 k 인 블로크의 원형 2중련 
결목록이 다. 이 목록의 각 원소는 각 블로크의 첫번째 폐지틀의 서술자이다. 폐지서술자 
에 있는 list 마당을 통해 이 목록을 구현한다. 

map 마당은 비트배치에 대한 지적자이다. 비트배치의 크기는 해당 령역에 존재하는 
페지틀의 수에 따라 달타진다. free _ area 배렬의 k 번째 입구점의 비트배치에 있는 매 비 
트는 크기가 2 k 인 폐지틀의 형제블로크상태 두개를 나타낸다. 비트배치의 비트가 0이라 
면 쌍을 이룬 두 형제블로크가 모두 사용가능하거나 모두 사용중임을 나타내며 비트가 
1이라면 한 블로크만 사용중이라는 사실을 의미한다. 두 형제가 모두 사용가능하면 핵 
심부는 이것을 크기가 2 k+1 인 여유블로크 하나로 간주한다. 

리해를 위해 128 MB 의 주기억 을 포함하는 령 역을 생각해 보자. 128 MB 는 1폐지 
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32768개 또는 2패 지 그룹16384개，4패 지 그룹 8192개 , 512폐 지 그룹 64개 등으로 쪼갤 
수 있다. 따라서 free _ area [이에 해당하는 비트배치는 폐지틀 32768개의 매 쌍마다 한 
비트씩 16384개 비트로 이루어진다. free _ area [ l ] 에 해당하는 비트배치는 두 련속하는 
폐지틀블로크의 각 쌍마다 한 비트씩 8192개 비트로 이루어진다. free _ area [9] 에 해당 
하는 마지막 비트배치는 련속된 폐지틀 512개로 구성된 블로크의 각 쌍마다 한 비트씩 
32개 비트로 이루어진다. 

그림 4-14 는 형제체계알고리 듬에서 자료구조를 사용하는 실례 이 다. 
zone _ mem _ map 배럴은 우에서 블로크그룹 (단일 페지 틀) 하나와 아래에 블로크 4개의 그 
롭 두개，이렇게 여유 폐지틀 아홉개를 포함한다. 량쪽 화살표 free _ list 마당는 구현한 
원형2중련결목록를 나타낸다. 비트배 치를 비률에 맞게 그리지 않았으므로 주의하시오. 


free_area 
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o 블로크할당 

alIoc _ pages () 함수는 형 제 체 계 할당알고리 듬의 핵 심 이 다. 앞서 살펴 본 《 페 지 틀 요 
청과 해제》에서 설명한 다른 모든 할당함수와 마크로는 최종적으로 alloc _ pages () 함 
수를 호출한다. 

이 함수는 파라메터 gfp_mask 에 들어있는 령역변경자에 해당하는 
contg _ page _ datanode_zonelitsts 배렬에 있는 목록를 조사한다. 이 목록에 있는 첫 
번째 령역서술자부터 시작하여 해당 령역에 있는 여유폐지틀의 수(령역서술자의 
free_pages 마당에 들어있다.)와 요청한 페지틀의 수 ( alloc _ pages () 의 order 파라메 
터)，령역서술자의 pages_low 마당에 들어있는 림계값을 비교한다. free_page - 
2 order 4 pages _ low 보다 작거나 같으면 그 령역을 건너 뛰고 목록에 있는 다음령역을 
조사한다. 모든 령역에서 여유페지틀이 충분하지 않으면 alloc _ pages () 는 순환을 다시 
시 작해 서 이번에는 적어도 여 유폐 지 틀 pages _ min 개 를 포함한 령 역을 찾는다. 이런 령 
역도 존재 하지 않고 현재 프로쎄스가 더 기다릴 수 있다면 try _ to _ free_pages 0 를 호출하 
여 기 억 기 요청 을 처 리 하는데 충분한 폐 지 틀을 회 수한다. (《폐 지 틀회 수》참고) 

alIoc _ pages () 는 적합한 여유폐지틀수를 가진 령역을 발견하면 

bu 打 ered _ rmqueue () 함수를 호출하여 해당 령역에서 블로크를 할당한다. 이 함수는 두 
파라메터 를 받는다. 하나는 령 역서 술자의 주소이 고 다른 하나는 요청 한 여 유페지 블로크 
크기 에 로그를 취 한 값인 order 이 다. (0 이 면 한 페 지 블로크，1이 면 두 폐지 블로크, 2이 
면 네 폐지 블로크 등) 폐지 틀를 성공적으로 할당하면 buffered_rmqueue () 함수는 할당 
한 첫번째 폐지틀의 폐지서술자의 주소를 반환한다. 이 주소는 alloc _ pages () 가 반환하 
는 주소이 다. 실패 하면 buffered _ rmqueue () 는 NULL 을 반환하고 alloc _ pages () 는 목 
록에 있는 다음령 역을 조사한다. 

buffered _ rmqueue () 함수는 다음 코드와 동둥하다. 먼저 국부변수 몇개를 정의하 
고 이것을 초기화한다. 

unsigned long flags ； 

struct page *page = NULL ； 

int cold = !! ( gfp_flags & _ GFP _ COLD ) : 

이 함수는 새치기를 금지하고 후에 블로크를 할당하려고 령역서술자의 마당을 수정 
할것이므로 해당 령역서술자의 스핀잠그기를 획득한다. 다음으로 요청한 order 에 맞는 
목록부터 시작해서 펼요하면 다음으로 큰 블로크로 계속 진행하여 순환하면서 각 목록에 
서 사용할수 있는 블로크가 있는지 찾는다. (입구점 이 자기를 가리 키지 않는것 으로 알수 
있다.) 이렇게 반복하는 코드는 다음과 같다. 


if (order == 0) { 
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struct per _ cpu_pages * pcp ; 

pep = & zone -> pageset [ get _ cpu ()] . pep [ cold ] ； 
local _ irq_save ( flags ) ； 
if ( pcp->count <= pep -〉 low ) 

pcp->count += rmqueue _ bulk ( zone , 0, 

pep -〉 batch , 技 pep -〉 list ) ； 

if ( pcp -> count ) { 

page = list _ entry ( pcp -> list . next , struct page , lru ) ； 
list_del (技 page -〉 lru ) ； 
pcp -> count —； 

} 

local _ irq_restore ( flags ) ； 
put_cpu () ； 


if (page == NULL ) { 

spin _ lock _ irqsave (& zone -> lock , flags ) ； 
page = — rmqueue ( zone , order ) ； 
spin _ unlock _ irqrestore (& zone -> lock , flags ) ； 


if (page != NULL ) { 

BUG_ON ( bad _ range ( zone , page )) ； 
mod _ page _ state _ zone ( zone , pgalloc , 1 « order ); 
prep _ new_page ( page , order ) ； 
if (order && ( gfp_flags & — GFP _ COMP )) 
prep _ compound _ page ( page , order ) ； 


return page ； 

순환이 끝나면 적합한 여유블로크를 찾지 못한것이기때문에 buffered _ rmqueue () 
는 NULL 값을 반환한다. 적합한 여유블로크를 찾은 경우에는 목록에서 첫번째 패지틀 
서술자를 제거하고 해당 비트배치를 갱신한 후 령역서술자의 free_pages 값을 감소시킨 
다. ( < 一 rmqueue () 함수 > 참고) 

요청 한 크기 인 order 보다 큰 크기 인 curr_order 목록에서 블로크를 찾았다면 다음 


388 


©變© 0變變©©鹽 


채 4 장. 71영71 


에 나오는 while 문을 실행한다. 이 코드의 리론적인 원리는 다음과 같다. 2 h 크기의 페 
지 틀요청 을 처 리 하기 위 해 2 k 크기의 폐지 틀블로크를 사용해 야 히는 경우 ( h < k ), 뒤부분 
의 2 h 폐지틀을 할당하고 앞부분의 2 k -2 h 폐지틀을 h 부터 k 사이의 색인에 있는 
free_area 목록에 할당한다. 

마지막으로 rmqueueO 는 스핀잠그기를 해제하고 return 명령을 실행한다. 

그 결과 alloc _ pages () 함수는 할당한 첫번째 폐지틀의 폐지서술자의 주소를 되돌린다. 

o 블로크해 제 

_; free _ pages _ ok () 함수는 페지 틀을 해제 하는 형제체계방책을 구현한다. 이 함수는 
다음 두 입 력 파라메터 를 사용한다. 

page 

해제할 블로크에 들어있는 첫번째 폐지틀서술자의 주소 

order 

블로크크기에 로그를 취한 값 

_打 ee _ pages _ ok () 함수는 보통 련이어 발생하는 할당요청에서 사용할수 있도록 페 
지 틀블로크를 형제체계 자료구조체 에 삽입 한다. 여기 에 례외가 하나 있다. 현재프로쎄 스 
가 령역사이에 균형을 맞추려고 기억기령역사이로 폐지를 이동할 때 이 함수는 폐지틀을 
해제하지 않고 블로크를 프로쎄스의 특별한 목록에 삽입한다. _ free _ pages _ ok () 는 페 
지틀블로크로 무엇을 할지 결정하려고 프로쎄스의 PF _ FREE_PAGES 기발을 검사한다. 

이 기발의 값은 프로쎄스가 기억기령역사이의 균형을 맞출 때에만 1이다. 여기서는 
current 의 PF _ FREE_PAGES 기발이 0이라고 가정하자. 따라서 _ free _ pages _ ok () 
는 블로크를 형제체계자료구조에 삽입한다. 

이 함수는 먼저 몇 가지 국부변수를 선언하고 초기화한다. 

국부변수 pagejdx 는 해당 령역의 첫번째 페지틀을 기준으로 하여 해제하는 블로크 
에서 첫번째 패지틀의 상대적인 색인를 저장한다. 국부변수 index 는 비트배치에서 블로 
크에 해당하는 비트의 번호를 보관한다. 

첫번째 폐지틀의 PG_referenced 와 PG_dirty 기발을 지우고 령역에 대한 스핀잠그 
기 를 획득하고 새 치 기 를 금지 한다. 

국부변수 mask 는 2 OTdel ■의 2의 보수값을 보관하며 령역에 있는 여유패지틀의 개수를 
증가시킬 때 사용한다. 

이제 최대 9 -order 번 순환하는 반복문을 시 작하고 한번 돌 때마다 블로크를 이웃하 
는 블로크와 합치려 한다. 이 함수는 가장 작은크기부터 시작하여 큰 크기로 올라간다. 
while 순환을 움직 이는 조건은 다음과 같다. 

순환안에서는 반복할 때마다 mask 에 있는 비트를 왼쪽으로 밀기 ( shift ) 하고 번호가 
page_idx 인 블로크과 이웃하는 블로크인 형제블로크를 검사한다. 

형제블로크를 사용중이면 순환을 빠져나가지만 형제블로크를 사용중이지 않으면 블 
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로크를 해당 여유블로크의 목록에서 떼여낸다. 형제블로크의 블로크번호는 pagejdx 에 
서 비트 하나를 반대로 바꾸어서 알아낸다. 

각 반복이 끝날 때마다 mask 와 area , index , pagejdx 국부변수를 갱신한다. 

그런후 다음 반복을 계속하여 이전 반복에서 다루던것 보다 두배로 큰 여유블로크를 
합치려고 시도한다. 이렇게 얻은 여유블로크를 더는 다른 여유블로크와 합칠수 없을 때 
반복이 끝난다. 다음으로 이 블로크를 옳바른 목록에 추가한다. 

마지막으로 령역에 대한 스핀잠그기를 해제하고 완료한다. 

2. 기 억기 령역관리 

여기서는 《 기 억기령역 (memory area ) > 즉 련속하는 물리주소를 가진 임의의 길 
이의 일련의 기억세포 (memory cell ) 를 취급한다. 

형제체 계알고리듬은 폐지 틀을 기본기억기 령역 으로 채 택한다. 이것은 상대적 으로 큰 
기억기요청을 다룰 때에는 좋지만 몇십 B 나 몇백 B 처럼 작은 기억기령역의 요청을 어떻게 
처리할수 있는가? 

말할 필요없이 단지 몇묘를 보관하기 위해 한 폐지틀 전체를 할당하는것은 매우 경 
제적인것이 못된다. 이 보다는 한 폐지틀내에서 작은 기억기령역을 어떻게 할당하고있는 
지를 나타내는 새로운 자료구조체를 도입하는것 이 더 좋은 접근법 이 다. 이 과정메서 내 
부단편화 (internal fragmenta 吐 on ) 라는 새 로운 문제가 발생 한다. 이 문제는 요청 한 기 
억기의 크기와 해당 요청을 처리하기 위해 할당하는 기억기령역의 크기가 일치하지 않아 
서 일어난다. 

Linux 초기 판본에 서 채 택 한 고전적 인 해 결 책 은 기 하학적 으로 분포된 크기 (즉 저 장 
할 자료의 크기가 아닌 2의 거듭 제곱에 따라 정한 크기)의 기억기령역을 제공하는것이 
다. 이렇게 해서 요청한 기억기크기에 상관없이 내부단편화는 항상 50%가 안됨을 보장 
할수 있다. 이런 접근법에 따라 핵심부는 크기가 32 B 부터 131056 B 까지 기하학적으로 
분포된 여 유기 억기 령 역목록 13개를 만든다. 새 로운 기 억기 령역을 저 장하는데 펼요한 페 
지틀을 추가로 할당하거 나 반대 로 더는 기 억기 령역을 포함하지 않은 패지틀을 해제할 때 
모두 형제체계을 사용한다. 각 폐지틀에 들어있는 여유기 억기 령역을 관리하기 위해 동적 
목록를 사용한다. 

1) 스랩할당자 

형 제알고리 듬우에 서 기 억기 령역 할당알고리 듬을 실 행하는것 은 효률적 이지 않다. 더 
나은 알고리듬은 1994년 Sun Microsystems 가 Solaris 2. 4조작체계용으로 개발한 
《스랩 할당자 (slab allocator ) 》라는 방책 에서 유래한다. 이것은 다음과 같은 전제 에 바 
탕을 둔다. 

- 저장할 자료의 형이 기억기령역을 할당하는 방법에 영향을 미칠수 있다. 례를들 
어 사용자방식프로쎄스에 폐지틀을 할당할 때 핵심부는 페지를 할당한 후 이것을 0으로 
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채우는 get _ zefoed _ page () 함수를 호출한다. 스랩할당자의 개념은 이런 생각을 확장하 
여 기 억기령역을 일련의 자료구조와《구축자 ( constructor ) 와 해제 자 ( destructor ) 》라 
는 메 쏘드 ( me 比 iod ), 즉 두 함수를 포함한 객 체 ( oblect ) 로 바라본다. 구축자는 기 억기 
령역을 초기화하고 해제자는 뒤정리를 한다. 스렘할당자는 객체를 반복해서 초기화하지 
않도록 할당하였다가 해제한 객체를 페기하지 않고 기억기에 그대로 저장한다. 새로운 
객체를 요청하면 초기화를 다시 하지 않고 기억기에서 이 객체를 가져올수 있다. 실제로 
Linux 에서 다루는 기억기령역은 초기화나 뒤정리를 할 필요가 없다. 효률성때문에 
Linux 는 구축자나 해제자메쏘드가 필요한 객체를 사용하지 않는다. 스램할당자를 도입한 
중요한 동기는 형제체계할당자를 호출하는 회수를 줄이는것이다. 따라서 핵심부가 구축자 
와 해제 자메쏘드를 완벽하게 지원하지만 두 메쏘드를 가리키는 지적자는 NULL 이 다. 

- 핵 심부함수는 같은 형의 기 억기 령역을 반복해서 요청하는 경 향이 있다. 례를 들 
어 핵 심 부는 새 로운 프로쎄 스를 만들 때 마다 프로쎄 스서 술자나 열린 파일객 체 같은 몇 가 
지 크기 가 고정된 표용으로 기 억기 령역을 할당한다. 프로쎄 스가 완료하면 이 런 표을 포 
함하든 기억기령역을 재활용할수 있다. 프로쎄스는 매우 자주 만들어지고 없어지므로 스 
랩할당자가 없다면 갈은 기 억기 령역을 포함하는 폐지 틀을 반복해서 할당하고 해제 하느라 
시 간을 허 비 한다. 스램할당자는 이것을 캐쉬 에 보관하고 빠르게 재 활용 할수 있게 한다. 

- 기억기령역에 대한요청은 그 빈도에 따라 분류할수 있다. 자주 발생할것 같은 
특정크기에 대한 요청은 크기가 동일한 특수목적의 객체집단을 만들어 가장 효률적으로 
처 리 함과 동시 에 내 부단편화 문제 도 피할수 있 다. 반면에 드물게 나오는 크기 는 비 록 내 
부단편화를 일으킬수 있지 만 기 하학적 으로 분포된 크기(이전 Linux 에서 사용한 2의 거 
듭 제곱 같은)인 일련의 객체에 기초한 할당방책을 통해 처리할수 있다. 

- 이외에도 기하학적으로 분포된 크기를 사용하지 않는 객체를 도입하여 얻을수 있 
는 리득이 작다. 자료구조의 시작주소가 2의 거듭 제곱인 물리주소로 집중되는 경향이 
덜하므로 처리기의 하드웨어캐쉬성능이 더 좋아진다. 

- 형제 체 계할당자를 호출하는 회수를 가능한 줄이는 일은 하드웨 어개 쉬의 성능을 
위 해서도 중요하다. 형제체 계함수를 호출할 때 마다 하드웨 어패쉬 가 불결해지 기때문에 평 
균기 억기접근시간이 늘어난다. 핵 심부함수하나가 하드웨 어캐쉬 에 미치는 영 향을 《 발자 
취 ( footprint ) > 라고 부론다. 이것은 함수가 완료했을 때 해당 함수가 덮어쓴 캐쉬의 
백분률로 정의한다. 응당 이 값이 콜수록 하드웨어패쉬는 쓰지 않는 정보로 채워지므로 
핵심부함수에서 돌아온 직후에 코드의 실행이 느려진다. 

스램할당자는 객체를 모아서 캐쉬 ( cache ) 로 만든다. 각 캐쉬는 형 이 같은 객체의 
《 창고 ( store ) ) 이 다. 례 를 들어 파일을 열 면 해 당 열 린파일 (open file ) 객 체 를 저 장하 
는데 필요한 기억기령역을 flip (file pointer , 파일지적자)라는 스램할당자캐쉬에서 가 
져온다. Linux 가 사용하는 스랩할당자캐쉬는 실행중에 / proc / slabinfo 파일에서 볼수 
있 다. 
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캐쉬 가 들어있는 주기 억기 령 역을 스램으로 나눈다. 각 스랩은 련속된 패지틀 하나이 
상으로 구성되며 할당한 객체와 여유객체를 모두 포함한다. 



그림 4-15. 스랩할당자의 구성요소 

스렘할당자는 빈 스램의 페지 틀을 절대 로 스스로 해제 하지 않는다. 언제 여유기 억기 
가 필요한지 모르고 새로운 객체를 만들수 있는 기억기가 충분히 있을 때 객체를 해제하 
는것은 아무런 리득이 없다. 따라서 핵심부에 추가로 여유폐지틀이 필요한 때에만 스램 
을 해 제 한다. 

2) 제쉬서술자 

각 캐쉬는 형이 struct kmem _ cache _ s ( kmem _ cadie _ t 형과 같다)인 표로 나타난다. 

이 표에서 가장 중요한 마당은 다음과 같다. 

name 

캐 쉬 이 름을 저 장하는 문자의 배 렬 
slabs_full 

여유객체가 없는 스랩서술자의 원형2중련결목록 
slabs_partial 

여유객체와 사용중인 객체를 모두 포함하는 스렘서술자의 원형2중련결목록 
slabs_free 

여유객체만 포함하는 스랩서술자의 원형2중련결목록 
spinlock 

다중처 리 기 체 계 에 서 개 쉬 에 동시 에 접 근하지 않도록 보호하는 스핀 잠그기 
num 

스랩 하나에 들어있는 객체의 수(캐쉬의 모든 스램은 크기가 같다.) 
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objsize 

캐쉬에 들어 있는 객체의 크기 (기억기에서 객체의 시작주소를 정렬해야 하면 스렙 할 
당자는 이 크기를 늘일수 있다) 
gfporder 

스램 하나에 들어 가는 련속된 폐지틀수에 로그를 퀴한 값 
ctor , dtor 

각각 캐쉬객체와 관련된 구축자와 해제자 메쏘드를 가리킨다. 앞서 설명한것처럼 지 
금은 NULL 로 설정한다. 
next 

캐쉬서술자의 2중련결목록을 가리 킨다. 
flags 

캐쉬의 영구적인 속성을 냐타내는 기발 집합. 례를 들어 기억기에 객체서술자를 저 
장하는 두가지 방법중 어느것을 사용하는지를 나타내는 기 발이 있다. 
dflags 

캐쉬의 동적인 속성을 나타내는 기발 집합. 례를 들어 핵심부가 캐쉬에 새 스램을 
할당하고있는지 여부를 나타내는 기 발이 있다. 다중처 리기체계 에서는 캐쉬의 스핀잠그기 
를 획득한 후 이 기발에 접근해야 한다. 
gfpflags 

페지틀을 할당할 때 형제체계에 전달하는 기발집합. 대체로 이 마당은 
_ GFP _ DMA 의 _ GFP_HIGHMEM 령 역변경 자를 지 정한다. 례 를 들어 gfpflags 에서 
_ GFP _ DMA 를 설정 하면 캐쉬 에 있는 객체 를 LSA DMA 을 사용할수 있다. 

3) 스랩서술자 

캐쉬의 각 스램은 형이 struct slab 인 자기만의 서술자가 있다. 스랩서술자를 저장 
할수 있는 장소는 두가지 이 다. 

▲ 외부스렙서술자 

스램외부에 cache _ sizes 가 가리 키 는 ISA DMA 용이 아닌 일반 캐 쉬 중 하나에 보관한 
다. 

내부스램서술자 

스랩 내 부에 스랩 에 할당한 첫 번째 페 지 틀의 시 작부분에 저 장한다. 

스렘할당자는 객 체의 크기 가 512 B 보다 작거 나 내부단편화에 의해 스렙내 에 스랩서 
술자와 뒤 에서 설명할 객체서술자를 담을 충분한 공간이 있으면 후자의 방법을 선택한다. 
스랩서술자에서 가장 중요한 마당은 다음과 같다. 

^ inuse 

스램에서 현재 할당한 객체의 수이다. 

4 - s_mem 
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스랩에 있는 첫번째 여유객체를(할당여부에 상관없이) 가리킨다. 

4- free 

스랩에 있는 첫번째 여유객체를(여유객체가 있다면) 가리긴다. 
list 

3가지 스랩서술자의 2중련결목록(캐쉬서술자에 있는 slabs _ full 이나 slabs _ partial , 
slabs _ free ) 중 하나를 가리키는 지적자이다. 

그림 4-16 는 캐쉬서술자와 스랩서술자사이의 주요관계를 보여준다. 가득찬 스랩과 
일부만 찬 스랩，렁빈 스랩을 서로 다른 목록으로 련결한다. 



- ► c_firstp 

- ♦ c_lastp 

s nextp 

-^ s_prevp 

卜 c freep 
c_nextp 


| | 가득찬 스랩 

일부만 찬스랩 


□ 


렁 빈 스랩 


그림 4-16. 캐쉬서술자와 스랩서술자사이의 관계 
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4) 일반패쉬와 특수캐쉬 

캐쉬는 일반캐쉬와 특수캐쉬 두 종류로 나눈다. 일반캐쉬 (general cache ) 는 스램 
할당자가 자기의 펼요에 의해서만 사용하는 반면에 특수패쉬 (specific cache ) 는 핵심부 
의 나머지부분에서 사용한다. 

일반캐쉬의 특징은 다음과 갈다. 

- 첫번째 캐쉬는 핵심부가 사용하는 나머지캐쉬의 캐쉬서술자를 포함한다. 
cache _ cache 변수에 이 서 술자가 들어있 다. 

- 추가캐쉬 26개에는 기 하학적으로 분포된 기 억기령 역 이 들어있다. 

- cache_sizes 표 ( caclie _ sizes_t 형인 요소틀 담는다)은 각각 크기가 32, 64, 
128, 256, 512, 1024, 2048, 4096, 8192, 16384, 32768, 65536, 130172 B 인 기억 
기 령 역 에 관련된 캐쉬서술자 26개 를 가리킨다. 각 크기마다 캐쉬 가 두개 있다. 하나는 
ISA DMA 용이며 디 른 하나는 일반 할당용이 다. 지정한 크기 에 해 당하는 패쉬 주소를 효 
률적으로 추출하기 위해 cache _ sizes 표를 사용한다. 

핵심부는 초기화과정에서 kmem _ cache_init () 과 kmem _ cache _ sizes_init () 함수를 
호출해서 일반캐쉬를 구성한다. 

특수캐 쉬 는 kmem _ cache_create () 함수로 만든다. 이 함수는 먼 저 파라메 터 에 따 
라 새로운 캐쉬를 다룰 가장 좋은 방법을 결정한다. (례를 들어 스렘서술자를 스랩내부에 
놓겠는지 아니면 외부에 놓겠는지 여부) 다음으로 cache_cache 일반캐쉬로부터 새 캐 
쉬용으로 캐쉬서술자를 새로 할당하고 이것을 캐쉬서술자목록(첫번째 요소가 
cache _ cache 이다) 에 넣 는다. 

kmem _ cache _ desttoy () 를 호출하여 캐쉬를 없앨수도 있다. 이 함수는 모둘이 자기 
를 적재할 때 자기만의 캐쉬를 만들고 부리울 때 캐쉬를 제거하는 경우에 가장 유용하다. 
기억기공간을 랑비하지 않도록 핵심부는 캐쉬 자체를 없애기전에 캐쉬에 들어있는 모든 
스랩을 없애야 한다. kmem _ cache _ shrink () 함수는 slab _ destroy () 함수를 반복 호출 
하여 캐쉬에 있는 모든 스랩를 없앤다(뒤에 나오는《캐쉬에서 스랩해제》참고). 캐쉬서 
술자의 growing 마당은 어떤 핵심부조종경로가 새로 스램을 할당하려 할 때 다른 핵심 
부조종경로가 kmem _ cache _ shrink () 를 호출하여 캐쉬를 없애는 일을 막는다. 

실행중에 / proc / slabinfo 파일을 읽어서 모든 일반캐쉬와 특수캐쉬의 이름을 알수 
있다. 이 파일은 각 캐쉬마다 여유객체의 수와 할당한 객체의 수도 알려준다. 

5) 형제체계와 스렙할당자의 련결 

스랩할당자가 새 스렘 을 만들 때 에는 형제 체 계알고리 듬을 사용하여 련속된 여유페 지 
틀을 할당 받는다. 이를 위 해 kmem _ getpages () 함수를 호출한다. 

static void * kmem_getpages ( kmem _ cache_t * cachep , int flags , int 

nodeid ) 
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struct page * page ; 
void * addr ; 
int i ； 


flags |= cachep -〉 gfpflags ; 
if ( likely(nodeid == -1)) { 

addr = ( void *) — get_f ree_pages ( flags , 
cachep -> gfporder ) ； 
if Oaddr ) 

return NULL ； 
page = virt _ to _ page ( addr ) ； 

} else { 

page = alloc _ pages _ node ( nodeid , flags , 
cachep -> gfporder ) ； 
if (! page ) 

return NULL ； 
addr = page_address ( page ) ； 


i = (1 « cachep -> gfporder ) ； 
if ( cachep->flags & SLAB _ RECLAIM _ ACCOUNT ) 
atomic _ add ( i , & slab _ reclaim _ pages ) ； 
add _ page_state ( nr _ slab , i ) ； 
while ( i —) { 

SetPageSlab ( page ); 
page ++； 

} 

return addr ； 

} 

각 입구파라메터의 의미는 다음과 같다. 
cachep 

추가로 폐지틀이 필요한 캐쉬의 캐쉬서술자를 가러킨다. (필요한 패지틀의 수는 
cachep->gfporder 마당를 가지고 결정한다.) 
flags 

폐지틀을 할당할 방법을 지정한다. (앞서 살펴본〈〈폐지틀 요청과 해제〉〉참고) 여기 
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에 지정한 기발과 캐쉬서술자의 gfpflage 에 들어있는 특별한 캐쉬할당기발을 결합한다. 
nodeid 

마디번호를 가리킨다. 

반대 작업 으로 스램 할당자에 할당한 폐 지 틀을 해 제할수 있 다. (뒤 에 나오는 《 패 쉬 에 
서 스랩 해제》참고) 

static void kmem_freepages ( kmem _ cache_t * cachep , void * addr ) 

{ 

unsigned long i = (1 << cachep -> gfporder ) : 
struct page *page = virt _ to _ page ( addr ) : 
const unsigned long nr_freed = i ； 

while ( i —) { 

if (! TestClearPageSlab ( page )) 

BUG ()； 

page ++； 

} 

sub _ page_state ( nr _ slab , nr _ freed ) : 
if ( current -> reclaim _ state ) 

cu r rent -> reclaim _ state -> rec 1 aimed_s 1 ab += nr _ freed ； 
free_pages ((unsigned long ) addr , cachep -> gfporder ) : 
if ( cachep->flags & SLAB _ RECLAIM _ ACCOUNT ) 

atomic _ sub ( l « cachep -> gfporder , & slab _ reclaim _ pages ) : 

} 

이 함수는 물리주소가 addr 인 페지틀부터 시작해서 cachep 가 가리키는 캐쉬의 스 
랩 에 할당한 페 지 틀을 해 제 한다. 


6) 패 쉬 에 스랩할당 

새로 만든 캐쉬는 이무런 스램도 포함하지 않으므로 여유객체 또한 포함하지 않는다. 
다음 두 조건에 모두 해 당하는 경우에만 캐쉬 에 새 로운 스랩을 할당한다. 

- 새 객체를 할당해 달라는 요청을 받을 때 

- 캐쉬에 여유 객체가 없을 때 

이런 일이 일어나면 스랩할당자는 cache _ grow () 를 호출하여 캐쉬에 새로 스램을 
할당한다. 이 함수는 kmem _ getpages 0를 호출해서 형제체계에서 폐지틀그롭을 할당받 
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고 alloc _ slabmgmt () 를 호출해서 새로운 스램서술자를 받는다. 새 스램서술자는 스랩 
의 첫번째 페지틀이나 cache _ sizes 가 가리키는 차수가 0인 일반캐쉬내의 스렙에 존재한 
다. 다음으로 cache _ init _ objs () 를 호출하여 구축자메쏘드가 있으면 새로 만든 스랩에 
들어가는 모든 객체에 이 구축자를 적용한다. 

다음으로 cache _ grow () 는 새로운 스렙에 할당한 폐지 틀의 모든 폐지서술자를 검 
색하여 폐지서술자에 있는 list 마당내의 next 와 prev 마당을 각각 캐쉬서술자의 주소 
와 스렘서술자의 주소로 설정한다. 형제체계에 있는 합수는 list 마당을 폐지틀이 여유 
페지틀일 때 에만 사용하는데 스랩할당자함수가 다루는 페지틀은 형제체계립장에서는 여 
유 페지틀이 아니기때문에 이렇게 페지틀 서술자를 다른 용도로 사용하더라도 형제체계 
는 혼동하지 않는다. 이 함수는 폐지틀의 PG _ slab 기 발도 설정 한다. 

다음으로 스램서술자 * slabp 를 캐쉬서술자 * cachep 의 렁빈 스랩목록끝에 추가한다. 

7) 캐쉬에서 스렙해제 

앞서 언급한대 로 스렙할당자는 절 대 빈 스랩 의 폐 지 틀을 스스로 해 제하지 않는다. 
실제로 다음 두 조건에 모두 해 당할 때 에만 스랩을 해제한다. 

- 형제체 계 가 새 로 폐지틀그롭을 할당해 달라는 요청을 처러 할수 없을 때(령역 에 기 
억기가 조금만 남은 때) 

- 스램 이 비여있을 때 즉 스랩에 틀어있는 모든 객체가 사용가능할 때 핵심부는 여 
유폐지틀이 부족하여 추가로 여유페지틀을 찾을 때 try _ to _ free _ pages () 를 호출한다. 
이 함수는 kmem _ caclie _ reap () 을 호출해서 적어도 빈 스랩 하나를 포함하는 캐쉬를 선 
택 한다. 다음으로 slab _ destroy () 를 호출하여 스랩을 렁빈 스램목록에서 제거 하고 스랩 
을 없앤다. 

static void slab_destroy ( kmem _ cache_t * cachep , struct slab * slabp ) 

{ 

void *addr = slabp -> s_mem - slabp -> colouroff : 


#if DEBUG 
int i ； 

for (i = 0； i < cachep -> num ; i ++) { 

void *objp = slabp -> s_mem + cachep->objsize * i ； 


if ( cachep->flags & SLAB _ POISON ) { 


#ifdef CONFIG _ DEBUG_PAGEALLOC 

if (( cachep -> objsize % PAGE _ SIZE ) ==0 && OFF_SLAB (cache 


P)) 
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kernel _ map_pages ( virt _ to_page ( objp ) , cachep-〉objsi 

ze / PAGE _ SIZE , 1); 

else 

check _ poison_obj ( cachep , objp ) ； 

#else 

check _ poison _ obj ( cachep , objp ); 

#endif 

} 

if ( cachep->flags & SLAB _ RED _ ZONE ) { 

if (* dbg _ redzonel ( cachep , objp ) != RED _ INACTIVE ) 
slab _ error ( cachep , "start of a freed object ’’ 

” was overwritten "); 

if (* dbg _ redzone 2( cachep , objp ) != RED _ INACTIVE ) 
slab _ error ( cachep , "end of a freed object ” 

"was overwritten ") ； 

} 

if ( cachep->dtor 技技 ! ( cachep->flags & SLAB _ POISON )) 

( cachep -> dtor ) ( objp + obj _ dbghead ( cachep ), cachep , 0); 

} 

#else 

if ( cachep -〉 dtor ) { 
int i ； 

for (i = 0； i < cachep -> num ； i ++) { 

void * objp = slabp -〉 s _ mem + cachep -〉 objsize * i ; 
( cachep -〉 dtor ) ( objp , cachep , 0) ； 

} 

} 

#endif 


if (unlikely ( cachep->flags & SLAB _ DESTROY 一 BY _ RCU )) { 
struct slab_rcu * slab _ rcu ; 

slab_rcu = (struct slab_rcu *) slabp ； 
slab _ rcu -〉 cachep = cachep ； 
slab _ rcu-〉addr = addr ； 
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call_rcu (&slab_rcu->head, kmem_rcu_free) : 

} else { 

kmem_f reepages (cachep, addr); 
if (OFF_SLAB(cachep)) 

kmem_cache_free(cachep->slabp_cache, slabp) : 


이 함수는 캐쉬 에 객체용 해제자메쏘드가 있는지 검사하여 (dtor 마당이 NULL 이 아 
닌지) 있는 경우 스렘에 있는 모든 객체에 해제자를 적용한다. 이때 국부변수 objp 는 
현재 처리중인 객체를 계속해서 유지한다. 다음으로 kmem_freepages 0를 호출하여 스 
랩이 사용하던 모든 련속된 폐지틀을 형제체계에 되돌린다. 마지막으로 스램서술자가 스 
렘 외 부에 있으면(뒤 에서 설명 하는데 OFF_SLAB 마크로가 1을 되 돌러 는 경 우이 다. ) 스 
렘서술자의 캐쉬에서 이것을 해제한다. 

8) 객체서술자 

각 객체는 kmem_bufctl_t 형인 서술자를 포함한다. 객체서술자를 해당 스램서술자 
뒤에 있는 배렬에 저장한다. 따라서 스랩서술자와 마찬가지로 스렘의 객체서술자도 그림 
4-17 에서 보는바와 같이 두가지 방법 으로 저장할수 있다. 


내부에 서 술자가있는 스램 
free 

smem 



스랩 


■ 1■당한 I 

여유 I 

I ，당한 I 

° 내 1 


서 술자 

_ 객체 I 

| 뼤 I 

I 뼤 I 

| 뼤 I 


_夕 



1 ' 

» ' 
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외부에 서술자가있는 스랩 


free 



그림 4-17. 스랩서술자와 객체서술자사이의 관계 

o 외부객체서술자 

스랩외부에 cache _ sizes 가 가리키는 일반캐쉬중 하나에 저장한다. 따라서 기억기령 
역의 크기는(따라서 객체서술자를 저장하는데 어떤 일반캐쉬를 사용할지는) 스랩에 저장 
하는 객체의 수(캐쉬서술자의 num 마당)에 따라 달타진다. 

ᄋ 내부객체서술자 

스램 내부에 객체서술자가 서술하는 객체 바로앞에 저 장한다. 

배렬에 있는 첫번째 객체서술자는 스램에 있는 첫번째 객체를 서술하며 나머지도 마 
찬가지이 다. 객체서술자는 단순히 부호없는 옹근수이며 객체를 사용하지 않을 때 에만 의 
미 가 있다. 이것은 스렘내 에서 사용할수 있는 다음 객체의 색 인를 지정 한다. 따라서 이 
것을 통해 스랩내에 있는 여유 객체의 단순목록를 구현한다. 여유객체목록에 있는 마지 
막요소의 객체서 술자는 미 리 약속한 값인 BUFCTL _ END ( Ox 打 ffffff ) 로 표시한다. 

9) 기억기에서 객체정렬 

스램할당자는 자기가 관리하는 객체를 기 억기에서 정 렬 ( align ) 한다. 즉 시 작물리주 
소가 지정한 상수(보통의 2의 거듭제곱이다)의 배수가 되도록 객체를 기억세포에 보관 
한다. 이 상수를《 정 렬결 수 (alignment factor ) 》라고 한다. 

스램할당자에 서 사용할수 있는 최 대 정 렬결수는 4096 즉 페 지 틀의 크기 이 다. 이것 
은 객체를 객체의 물리주소나 선형주소를 통해 정렬할수 있음을 의미한다. 두 경우 모두 
정 렬할 때 주소의 아래자리 12 bit 만 바물수 있다. 

보통 극소형 콤퓨터 는 물리 주소가 단어 ( wor d ) 크기 즉 콤퓨터의 내 부기 억 기 모선의 폭 
에 정렬되여있을 때 기억세포에 좀 더 빨리 접근한다. 따라서 kmem _ cache _ create () 함수 
는 기본적으로 객체를 BYTFS _ PER_WORD 마크로가 지정한 단어크기에 따라 정렬하려 
고 한다. Intel 펜리움처 리기에서는 단어가 32 bit 길이므로 이 마크로 값은 4이다. 
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새로 스렘캐쉬를 만들 때 캐쉬에 들어가는 객체를 CPU 의 1 차 하드웨어캐쉬를 기준으 
로 정렬하도록 지정할수 있다. 이렇게 하려면 SLAB_HWCACHE_ALIGN 캐쉬서술자기발 
을 지정해야 한다. kmem_cache_create () 함수는 이 요청을 다음과 같이 처리한다. 

- 객 체 크기 가 캐 쉬 행 (cache line) 의 절 반보다 크면 L1_CACHE_BYTES 의 배 수가 
되도록 즉 캐쉬행 시작에 있도록 객체를 주기억에 정렬한다. 

- 그렇지 않으면 객 체크기를 L1_CACHE_BYTES 계수값으로 반올림한다. 이것은 
한 객체 가 절대 로 두 케쉬행 에 걸쳐 있지 않도록 만들어준다. 

여기서 스램할당자가 하는 일은 기억기공간과 접근시간사이의 흥정이다. 인공적으로 
객체크기를 크게하면 더 좋은 캐쉬성능을 엄을수 있지만 내부단편화를 더 심화시킨다. 

10) 스랩 채 색 (coloring) 

앞에서는 같은 하드웨 어캐쉬행은 주기억의 서로 다른 여 러 블로크를 배치한다는것을 
취급하였다. 여기서는 크기가 동일한 객체를 패쉬에서 편위에 저장하는 경향이 있다는 
사실도 살펴보았다. 다른 스램에서 동일한 편위에 있는 객체는 결국 같은 캐쉬행으로 배 
치될 가능성 이 상대적으로 매우 높다. 따라서 캐쉬하드웨 어는 주기 억의 서로 다른 위 치 
에 존재하는 두 객체를 같은 캐쉬행으로 번갈아 가며 가져오면서 기억기주기을 랑비하고 
다른 캐쉬행을 조금밖에 사용하지 않을수도 있다. 스랩할당자는 이런 유쾌하지 않은 캐 
쉬동작을 《스랩채색 (slab coloring) 》이 라는 방책으로 줄이려 한다. 스렙채색 이 란 스 
램 에 색 (color) 이 라는 서로 다른 임의의 값을 할당하는것을 말한다. 

스램채색을 살펴보기에 앞서 캐쉬에서 객체를 어떻게 배치하는지 알아보자. 객체를 
주기억이 정렬하고있는 캐쉬를 생각해보자. 즉 객체의 주소는 어떤 정수값 aln 의 배수 
이여야 한다. 정렬제한까지 고려하더라도 객체를 스램내에 둘수 있는 방법은 여러가지이 
다. 이중 어떤것을 선택할지는 다음의 변수가 좌우한다. 

num 

스랩 에 저 장할수 있는 객체의 수. 이 값은 캐쉬서술자의 num 마당에 들어있다. 

osize 

정렬바이트를 포함한 객체의 크기 

dsize 

스랩서술자크기에 모든 객체서술자의 크기를 합한값. 스램서술자와 객체서술자를 스 
램외부에 저장하는 경우 이 값은 0이다. 

free 

스램내에서 사용하지 않는 바이트(어떤 객체에도 할당하지 않는 바이트)의 수 

스랩의 전체 바이트길이는 다음과 같이 표현할수 있다. 

스랩 길이 = (num x osize) + dsize + free 

여기서 free 는 항상 osize 보다 작다. 그렇지 않으면 스랩내에 객체를 추가로 더 넣 
을수 있기때문이다. 그러나 free 는 aln 보다 클수 있다. 
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스랩할당자는 사용하지 않는 分 ee 바이 트를 사용하여 스램 에 색 을 부여 한다. 《 색 
( color ) > 이라는 용어는 단순히 스램을 세분화하고 기억기할당자가 객체를 다른 선형주 
소사이에 퍼뜨릴수 있도록 하려 고 사용한다. 이렇게 해서 핵심부는 극소형처 리기의 하드 
웨어캐쉬성능을 가능한 최대화한다. 

다른 색의 스렙은 정렬제한을 만족하는 범위내에서 스렙의 첫번째 객체를 각기 다른 
기 억기위치 에 저 장한다. 사용가능한 색수는 (/ ree / 요 to )+ l 이 다. 첫번째 색은 0, 마지막 
색 은(이 값은 개 쉬 서 술자의 color 마당에 들어있 다) free / aln 느로 표현한다. 

스랩의 색이 «?/이면 이 스랩의 첫번째 객체의 편위는 (스램의 시작주소부터 상대 
적 인 주소) colxaln+dsize 바이 트이다. 이 값을 캐 쉬 서 술자의 colour_off 마당에 저 
장한다. 그림 4-18 은 스램색에 따라 스랩내부에 객체를 어떻게 배치하는지 보여준다. 채 
색은 기본적으로 스램의 빈 령역 일부를 맨 끝에서 맨 앞으로 옮기는것 이 다. 


숀렘과 
객체 
서 술자 


객체 

객체 

소、 

객체 

객체 






free - 

ize 




dsize 

e 

toPalif 

cc 

osize 

l*aln 

4 (효 


빼 osize 

^ osi^ 


그림 4-18. 색이 c 이 이고 aln 으로 정렬하는 스랩 

채색은 free 악 값이 충분히 큰 경우에만 동작한다. 객체를 정렬할 필요가 없거나 스 
랩내에 사용하지 않는 바이트의 수가 요청한 정렬결수보다 작으면 ( Jree < aln ) ，여기서 
할수 있는 스램채색은 스랩이 색 0을 가지는것 즉 첫번째 객체에 편위 0을 할당하는것 
뿐이다. 

현재색을 캐쉬서술자의 colour_next 마당에 저장하여 같은 종류의 객체를 포함하 
는 스랩 사이에서 여러가지 색을 똑같이 분포시킨 다. kmem _ cache_grow 0 함수는 
colour _ next 에서 지정 하는 색을 새로운 스렘에 할당한 후 이 마당의 값을 증가시킨다. 
이 값이 colour 값에 도달하면 다시 0으로 만든다. 이런식으로 각 스랩은 이전 색과는 
다른 최대 가능한 색개수만큼 서로 다른 색을 가진다. 

11) 다중처러기체계에서 객체의 국부배렬 

Linux 는 다중처리기체계용 스램할당자를 Solaris 2.4 와 다르게 구현한다. 처리기들 
이 스핀잠그기를 다루는 일을 줄이려고 스랩할당자의 각 캐쉬는 체계에 있는 각 CPU 마 
다 작은 수의 여유객체의 지적자배렬을 포함한다. 스램객체를 할당하고 해제하는것에 해 
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당하는 수는 국부배 렬 (local array ) 에만 영 향을 미친다. 국부배 렬 이 너무 적 어지거 나 
너무 많아진 경우에만 스램자료구조가 관여한다. 

캐쉬서술자는 체계에 있는 CPU 마다 하나씩 cpucache _ t 자료구조체를 가리키는 지 
적자를 포함하는 cpudata 배럴을 포함한다. cpucache _ t 자료구조체는 객체의 국부배렬 
의 서술자를 나타내 고 다음과 갈은 마당를 포함한다. 

avail 

국부배렬에서 사용할수 있는 객체수: 배럴에서 첫번째 여유슬로트의 색인역활도 한다. 

limit 

국부배럴의 크기 즉 국부배럴에 있을수 있는 최대객체수 

국부배렬서술자는 배렬자체의 주소를 저장하지 않는다. 사실 이 배럴은 서술자 바로 
뒤 에 있다. 물론 배 렬은 캐쉬의 스램 에 들어있는 여 유객체 에 대한 지적자를 저장하는것 
이지 객체자체를 저장하는것은 아니다. 배렬의 기본크기는 스렘캐쉬에 저장하고있는 객 
체의 크기 에 따라 달라진다. 작은 객체인 경우 (255 B 까지)배 렬크기는 252개 이고 중간객 
체 인 경우 (256 부테 023 B 사이) 124개 , 큰 객체 인 경우 (1024 B 이상) 60개 이 다. 체계관 
리자는 / proc / slabinfo 파일에 쓰기를 하여 각 캐쉬마다 배렬의 크기를 조절할수 있다. 

12) 캐 쉬 에 객 체할당 

kmem _ cache _ alloc () 함수를 호출하여 새 객체를 얻을수 있다. cachep 파라메터는 
새 로운 여 유객체 를 가져 올 캐 쉬서술자를 가리 키고 flag 파라메 터는 형제 체 계 할당자함수에 
게 전달할 기발을 나타낸다. 

이 함수의 구현은 단일처 리기체계와 다중처 리기체계 에서 다르다. 다중처 리기체계의 
경우 해제한 국부객체배럴도 생각해야 하기때문이다. 이 두 경우를 따로따로 설명한다. 

O 단일처리기인 경우 

kmem _ caclie _ alIoc () 는 — cache _ alloc () 를 호출한다. (《_ cache_alloc 0 함수》 
를 참고) 

void * kmem _ cache_alloc ( kmem _ cache_t * cachep , int flags ) 

{ 

return — cache _ alloc ( cachep , flags ); 


static inline void * _ cache_alloc ( kmem _ cache_t * cachep , int flags ) 

unsigned long save _ flags : 
void * objp ； 

struct array_cache * ac ； 
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cache_al loc_debugcheck_before (cachep, flags) ； 

local_irq_save (save_f lags) ； 
ac = ac_data (cachep) ； 
if (likely(ac->avail)) { 

STATS_INC_ALLOCHIT (cachep) ； 

ac->touched = 1; 

objp = ac_entry(ac) [—ac->avail] : 

} else { 

STATS_INC_ALLOCMISS (cachep) ； 
objp = cache_alloc_refill (cachep, flags) ； 

} 

local_irq_restore (save_f lags) ； 

objp = cache_alloc_debugcheck_af ter (cachep, flags, objp, — builtin_ret 
urn_address(0)) ； 

return objp ； 

} 

O 다중처리기인 경우 

kmem_cache_alloc() 함수는 먼저 국부새치기를 금지하고 실행중인 CPU 에 관련 
된 캐쉬의 국부배럴에 여유객체가 있는지 찾는다. 
local_irq_save (save_f lags) ; 
ac = ac_data (cachep) ； 

STATS_INC_ALLOCHIT (cachep) ； 
ac->touched = 1 ； 
objp = ac_entry(ac) [—ac->avail] ； 
local_irq_restore (save_f lags) ； 
objp = cache_al loc_debugcheck_af ter (cachep, flags, objp, 

— builtin_return_address (0)) ； 
return objp ； 

13) 캐쉬에서 객체해제 

mem_cache_free() 함수는 앞에서 스랩할당자가 할당한 객체를 해제한다. 이 함수 
는 캐쉬서술자주소인 cachep 와 해제 할 객체주소인 objp 를 파라메터로 받는다. 
kmem_cach_alloc() 와 마찬가지로 단일처리기경우와 다중처리기경우를 구별해서 설명 
한다. 
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o 단일처리기의 경우 

이 함수는 먼저 국부새치기를 금지하고 해당 객체를 포함하는 스랩의 서술자주소를 
알아내면서 시작한다. 이 함수는 객체를 저장하는 페지틀의 페지서술자가 있는 listprev 
마당을 활용한다. 
slab_t * slabp ； 
unsigned int objnr ； 
local _ irq_save ( save_f lags ); 

slabp = ( slab_t *) mem_map [ — pa ( objp ) » PAGE _ SHIFT ]. list , prev ； 

다음으로 스렘내에 있는 객체의 색인을 계산하고 해당 객체서술자의 주소를 알아내 
서 객체를 스랩의 여유객체목록의 머리에 추가한다. 

objnr = (objp - slabp -〉 s _ mem ) / cachep -〉 objsize ; 

((kmem bufctl _ t *) ( slabp +1)) [ objnr ] = slabp -> free ； 
slabp -〉 free = objnr ； 

마지 막으로 스랩 을 다른 목록으로 옮겨 야 하는지 검사한다. 
if (― slabp->inuse == 0) { /* 이제 스랩은 렁빈 상태 이다. */ 
list_del (& slabp -〉 list ) ； 

list _ add (技 slabp —〉 list , 技 cachep —〉 slabs _ free ) ； 

} else if ( slabp -〉 inuse + l == cachep -> num ) { /* 스랩 이 가득찬 상태 였다. */ 
list _ del (& slabp -〉 list ) ； 

list _ add (技 slabp —〉 list , 技 cachep —〉 slabs _ partial ) ; 

} 

local _ irq_restore ( save _ flags ) ； 
return ； 

ᄋ 다중처리기의 경우 

이 함수는 먼저 국부새치기를 금지하면서 시작한다. 다음으로 객체지적자의 국부배 
렬에 여유슬로트가 있는지 여부를 검사한다. 
cpucache_t * cc ； 
local _ irq_save ( save_f lags ); 
cc = cachep-〉cpudata [ smp _ processor_id 0 ]; 
if ( cc -> avail == cc -> limit ) { 
cc-〉avail = cachep -〉 batchcount ; 
free _ block ( cachep , & ((void *) ( cc +1)) [ cc -〉 avail ], 
cachep -> batchcount ) ； 
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((void *) ( cc +1)) [ cc -〉 avail ++] = objp ; 

local _ irq_restore ( save_f lags ) ； 

return ； 

국부배렬에서 여유슬로트가 적어도 하나이상 있다면 여기에 해제하는 객체의 주소를 
저장한다. 여유슬로트가 없으면 free _ block ( )를 호출하여 객체 cachep->batchcount 
개를 해제해서 할당자캐쉬로 보낸다. free _ block ( cachep , objpp , len ) 함수는 캐쉬스 
핀잠그기를 해제한 후 objpp 주소에 있는 국부배렬입구점부터 객체 len 개를 해제한다. 
spin _ lock (技 cachep -〉 spinlock ) ； 
for (； len >0； len —, objpp ++) { 
slab_t * slabp = 

( slab_t *) mem_map [_ pa (* objpp ) >>PAGE _ SHIFT ]. list , prev ； 
unsigned int objnr = 

(*ob jpp-s labp -> s _ mem ) / cachep->objsize ； 

(( kmem _ bufctl_t *) ( slabp +1)) [ objnr ] = slabp->free ； 
slabp - >f ree = objnr ; 

if (-- slabp -〉 inuse == 0) { /* 스랩은 이제 렁 빈 상태 이 다. */ 
list del (& slabp -> list ) ； 

list add (技 slabp -〉 list , & cachep -> slabs _ free ) ； 

} else if ( slabp -> inuse + l == cachep -> num ) { /* 스랩 이 가득 찬 상태 였다. */ 
list_del (& slabp -> list ) ； 

list _ add (& slabp -〉 list , & cachep -> slabs _ partial ) ； 


spin_un 1 ock (& cachep -> spin 1 ock ) ； 

객체를 해제하여 스랩으로 보내는것은 단일처리기경우와 갈으므로 더 설명하지 않는다. 
14) 범용객체 

앞에서 《형제체계알고리듬》에서 설명한것처럼 드물게 일어나는 기억기령역요청은 
객체의 크기가 최소 32부터 최대 131072 B 까지 기 하학적으로 분포되 여있는 일반캐쉬 그 
룹을 통해 처 리 한다. 

이 종류의 객체는 kmallocO 함수를 호출해서 얻는다. 

void * — kmalloc ( size_t size , int flags ) 

{ 

struct cache_sizes *csizep = malloc _ sizes ； 
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for (； csizep->cs_size ； csizep++) { 
if (size > csizep->cs_size) 
continue ； 

#if DEBUG 

BUG_ON (csizep->cs_cachep == NULL); 

#endif 

return _cache_alloc (flags 技 GFP_DMA ? 

csizep - 〉 cs_dmacachep : csizep->cs_cachep, flags) ； 

} 

return NULL ； 

} 


이 함수는 cache_sizes 표를 사용하여 요청한 크기에 가장 가까운 2 의 반복제곱의 
크기를 계산한다. 다음으로 _cache_alloc() 을 호출해서 객체를 할당한다. 

_cache_alloc() 을 호출할 때 _GFP_DMA 기 발을 지정 했는지 여부에 따라 ISA DMA 
용 폐지틀에 대한 캐쉬서술자나 보통 폐지틀의 캐쉬서술자를 파라메터로 전달한다. 
kmallocO 를 호출해서 할당한 객체는 kfreeO 를 호출하여 해제할수 있다. 


void kfree (const void *objp) 

[ 

kmem_cache_t *c ； 
unsigned long flags ； 

if Oobjp) 

return ； 

local_irq_save (flags) ； 
kfree_debugcheck (objp); 
c = GET_PAGE_CACHE (virt_to_page (objp)) ； 
一 cache_free (c, (void*) objp); 
local_irq_restore (flags) ； 


기억기령역을 포함하는 첫번째 폐지틀의 서술자에 있는 list.next 마당을 읽어서 해당 
캐쉬서술자를 확인할수 있다. kmem_cache_free() 를 호출하여 기억기령역을 해제한다. 
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3. 불련속적인 기억기령역관리 


지금까지 한 론의를 통해 기억기령역을 련속된 폐지틀의 집합으로 배치하는것이 더 
바람직하며 이것을 통해 캐쉬를 더욱 잘 활용할수 있고 평균기억기접근시간을 줄일수 있 
다는 사실을 알았다. 그러나 기억기령역을 많이 사용하지 않으면 련속된 선형주소로 접 
근할수 있지만 물리적으로는 불련속적 인 폐지틀을 기반으로 하는 할당방책을 생각해보 
는것도 리치에 맞는일이다. 이 방책의 가장 큰 우점은 외부단편화 (external 
fragmentation) 문제를 피 할수 있다는것이다. 반면에 핵심부페 지표를 다루어야 하는 부 
족점도 있다. 응당 불련속인 기억기령역의 크기는 4096 의 배수여야 한다. Linux 는 몇 
가지 용도로 불련속적인 기억기령역을 사용한다. 이것을 사용하는 실례로 활성화된 교환 
령역용으로 자료구조를 할당하거나(《교환령역활성화와 비활성화》참고)모둘용으로 공 
간을 할당하거 나 일부 입 출력구동프로그람용으로 완충기 를 할당하는것 도 있 다. 

1) 불련속적인 기억기령역의 선형주소 

선형 주소의 빈 범위를 찾기 위 해 PAGEJDFFSET (보통은 마지 막 1GB 의 시 작주소 
인 OxcOOOOOOO) 부터 시작하는 령역을 들여다 볼수 있다. 그림 4-19 는 마지막 1GB 선 
형주소를 어떻게 사용하는지 보여준다. 

- 령 역의 시작부분에는 주기 억의 처음 896MB (《프로쎄스페지표》참고)를 배 치하 
는 선형주소가 들어간다. high_memory 변수는 직접 배치하는 물리기억기의 끝에 해당 
하는 선형주소를 저장한다. 

- 령 역 의 끝에 는 고정 배 치 하는 선형 주소가 들어 간다. (《 고정 배 치 하는 선형 주소》참고) 

- PKMAP_BASE(0*fe000000) 부터 핵심부에서 웃자리 기 억기폐지 틀을 배 치 하는데 
사용하는 선형 주소가 있 다. (앞에 서 본《 웃자러 기 억 기 페 지 틀의 핵 심 부배 치》참고) 

- 선형주소의 나머지구간은 불련속적인 기억기령역을 위해 사용할수 있다. 물리적 
인 기억기의 끝과 첫번째 불련속적인 기억기령역사이에는 안전을 위해 8MB 
(VMALLOC_OFFSET 마크로)의 간격 이 있다. 이 간격의 목적은 범위를 벗어난 기 억기 
접근을 잡아내는것 이 다. 같은 목적으로 각 불련속적 인 기 억기 령역사이에는 4MB 크기의 
안전간격 이 추가로 들어간다. 
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PAGE_OFFSET 부터 시작하는 선형주소구간 
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VMALLOC _ START 마크로는 불련속적인 기억기령 역용으로 예약된 선형 공간의 시 
작주소를 정 의 하고 VMALLOC _ END 는 그 마지 막주소를 정 의한다. 

2) 불련속적인 기억기령역서술자 

각 불련속적 인 기억기 령역마다 struct vm_struct 형서술자가 관련된다. 
struct vm_struct { 

void * addr ； 


unsigned long 
unsigned long 
struct page 
unsigned int 
unsigned long 


size ； 
flags ; 
** pages ; 
nr_pages ； 

phys _ addr ； 


struct vm_struct * next ; 

}； 

이 서술자는 next 마당를 리용한 간단한 목록으로 들어간다. vmlist 변수는 이 목록 
에 첫번째 요소의 주소를 보관한다. vmlist_lock 읽기/쓰기스핀잠그기를 사용하여 이 
목록에 접근하는것을 보호한다. addr 마당에는 기억기령역의 첫번째 기억세포의 선형주 
소가， size 마당에는 령역의 크기에 4096( 앞에서 언급한 령역사이의 안전간격크기)을 더 
한값이 들어간다. 

get _ vm _ area () 함수는 struct vm_struct 형의 새로운 서술자를 만든다. 여기에 
넘어 가는 파라메터 size 는 새로운 기 억기 령 역의 크기를 지정 한다. 이 함수는 근본적으로 
다음과 갈다. 

struct vm_struct * _ get _ vm _ area(unsigned long size , unsigned long flags , 
unsigned long start , unsigned long end ) 

{ 


struct vm_struct ** p ，* tmp , * area ; 
unsigned long align = 1； 
unsigned long addr ； 


if (flags & VMJOREMAP ) { 
int bit = f Is ( size ) ； 


if (bit > IOREMAP _ MAX _ ORDER ) 

bit = IOREMAP _ MAX _ ORDER : 
else if (bit < PAGE _ SHIFT ) 
bit = PAGE _ SHIFT ； 
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align = lul « bit ； 

} 

addr = ALIGN ( start , align ) ； 

area = kmalloc (sizeof (* area ), GFP _ KERNEL ) ； 
if ( unlikely (! area )) 
return NULL ； 

size += PAGE _ SIZE ； 
if ( unlikely (! size )) { 
kfree ( area )； 
return NULL ； 

} 

write_lock (& vmlist _ lock ) ； 

for (p = 技 vmlist ; (tmp = * p ) != NULL ；p = & tmp -> next ) { 
if ((unsigned long ) tmp->addr < addr ) { 

if ((unsigned long ) tmp -〉 addr + tmp->size >= addr ) 
addr = ALIGN ( tmp-〉size + 

(unsigned long ) tmp -> addr , align ) ； 

continue ； 

} 

if ((size + addr ) < addr ) 
goto out ； 

if (size + addr <= (unsigned long ) tmp -> addr ) 
goto found ； 

addr = ALIGN ( tmp->size + (unsigned long ) tmp -> addr , align ) ； 
if (addr > end - size ) 
goto out ； 

} 

found ： 

area-〉next = * p ; 

*p = area ； 
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area-〉flags = flags ； 
area-〉addr = (void *) addr ; 
area->size = size ； 
area->pages = NULL ； 
area -> nr_pages = 0； 
area -〉 phys_addr = 0； 
write_unlock (& vmlist _ lock ) ； 


return area ； 


out ： 

write_unlock (& vmlist _ lock ) ； 
kfree ( area )； 
if ( printk_ratelimit ()) 

printk ( KERN_WARNING "allocation failed ： out of vmalloc spac 
e - use vmalloc =< size > to increase size An ") ； 
return NULL ； 

} 

이 함수는 먼저 kmallocO 을 호출하여 새 서술자를 위한 기억기령역을 할당한다. 
다음으로 struct vm_struct 형 서술자의 목록를 검색 하여 최소 size +4096 주소를 포함할 
수 있는 선형주소구간이 있는가를 찾는다. 이런 구간이 존재하면 서술자에 있는 마당를 
초기화하고 불련속적인 기억기령역의 시작주소를 반환하면서 함수를 끝마친다. 그렇지 
않고 addr+size 가 VMALLOC_END 를 넘어서면 get _ vm _ area () 함수는 서술자에 할당 
했던 기억기를 해제하고 NULL 을 반환한다. 

3) 불련속적인 기억기령역할당 

vmalloc 0 함수는 핵심부에 불련속적 인 기 억기 령 역을 할당한다. size 파라메터는 
요청한 령역의 크기를 나타낸다. 이 함수는 요청한 기억기를 할당할수 있으면 새 령역의 
시작선형주소를 반환하고 그렇지 않으면 NULL 지적자를 반환한다. 

void *vmalloc (unsigned long size ) 

{ 

return _ vmalloc ( size , GFP_KERNEL | _ GFP _ HIGHMEM , 
PAGE . KERNEL ); 
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void * 一 vmalloc (unsigned long size , int gfp _ mask , pgprot_t prot ) 

{ 

struct vm_struct * area ； 

struct page ** pages ; 

unsigned int nr _ pages , array _ size , i ； 

size = PAGE _ ALIGN ( size ); 

if (!size || (size » PAGE _ SHIFT ) > num _ physpages ) 
return NULL ； 

area = get _ vm _ area ( size , VM _ ALLOC ) ； 
if ( larea ) 

return NULL ； 

nr_pages = size » PAGE_SHIFT ； 

array_size = ( nr_pages * sizeof (struct page *)); 

area -〉 nr_pages = nr_pages ； 

area -〉 pages = pages = kmalloc ( array _ size , ( gfp_mask & ~ — GFP_HIGH 
MEM ))； 

if (! area -〉 pages ) { 

remove _ vm_area ( area -> addr ) ； 
kfree ( area ); 
return NULL ； 

} 

memset ( area -> pages , 0, array _ size ) ； 

for (i = 0； i < area -> nr _ pages ； i ++) { 

area-〉pages [ i ] = alloc _ page ( gfp _ mask ) ； 
if (unlikely (! area->pages [ i ])) { 
area -> nr_pages = i ； 
goto fail ； 


透資邊 ©資變©^ 


413 


Linux 핵심부해설서 


if ( map _ vm _ area ( area , prot , Spages )) 
goto fail ； 

return area -> addr ； 

fail ： 

vfree ( area -> addr ) : 
return NULL ； 

} 

이 함수는 먼저 4096 (폐 지 틀크기 )의 배 수가 되 도록 size 파라메터 의 값을 반올림 한 
다. 다음으로 vmallocO 은 get _ vm _ area ( )를 호출하여 새 서술자를 할당하고 이 기억 
기령역이 할당할 선형 주소를 돌려 받는다. 서술자의 flags 마당를 VM_ALLOC 기발값 
으로 초기 화한다. 이 기 발는 해 당 선형 주소범 위 를 불련속적 인 기 억 기할당을 위해 사용하 
려 한다는 사실을 나타낸다 .(5 장에서 여기서와 달리 vm_stmct 서술자를 하드웨어장치 
에 있는 기억기를 재배치 ( remapping ) 하는 용도로 사용하는것을 볼것 이 다.) 다음으로 
vmallocO 은 alloc_pages () 를 호출하여 불련속적인 페지틀을 요청하고 불련속적인 기 
억기령역의 처음 선형주소를 반환하며 끝마친다. 

map _ vm _ area () 함수는 파라메 터 3개 를 받는다. 

area 

령역을 가리키는 지적자이다. 

pages 

페지를 가리키는 지적자이다. 

prot 

할당할 페지틀의 보호비트이다. 이것을 항상 Present (존재), Accessed (접근), 
Read/Wfite (읽기/쓰기), Dirty (불결)에 해당하는 0 x 63 으로 설정한다. 

이 함수는 먼저 국부변수 end 를 령역 이 끝나는 곳의 선형주소로 설정한다. 

end = address + size ； 

다음으로 pgd _ offset_k 마크로를 사용하여 주핵심부 패지대역등록부에서 이 령역에 
시 작선형 주소에 해 당하는 입 구점 을 가져 온다. 그후 핵 심 부페 지 표 스핀잠그기 를 획 득한다. 

반복할 때마다 이 함수는 먼저 pmd _ alloc () 을 호출하여 새 령역용으로 패지중간등 
록부를 생성하고 이것의 물리주소를 핵심부패지대역표의 옳바른 입구점에 기록한다. 다 
음으로 map _ area _ pmd () 를 호출하여 폐지중간등록부와 련결되는 모든 페지표를 할당한 
다. address 의 현재 값에 패지 중간등록부 하나가 다루는 선형 주소범위의 크기인 상수 
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2 22 를 더하고 패지대역등록부에 대한 지적자 dir 을 증가시킨다. 불련속적인 기억기령역 
을 참조하는 모든 폐지표 입구점을 설정할 때까지 이 코드를 반복한다. 

map _ area _ pmd () 함수는 비슷한 방식으로 폐지중간등록부가 가리키는 모든 페지표 
에 대해 반복을 한다. 

pte _ alloc _ kernel () 함수(《폐지표 다루기》참고)는 새 페지표를 할당받아 페지중 
간등록부에 있는 해당 입구점을 갱신한다. 다음으로 map _ area _ pte () 는 페지표입구점에 
해 당하는 모든 폐지틀을 할당한다. address 값에 페지표 하나가 다루는 선형주소범위의 
크기 인 2 12 를 더 하고 순환을 반복한다. 

map _ area _ pte () 함수의 핵심반복코드는 다음과 같다. 

while (address < end ) { 

unsigned long page ； 

spin_unlock (& init _ mm . page _ table _ lock ) : 

page_alIoc ( gfp _ mask ) : 

spin_l ock (& init _ mn . page_tabl e_l ock ) : 

if Opage ) 

return - ENOMEM ； 

set _ pte ( pte , mk_pte ( page , prot ) ); 

address += PAGE _ SIZE ; 

pte ++； 

} 

page _ alIoc () 함수를 통해 각 페지틀을 할당한다. 새로 할당한 페지틀의 물리주소를 
set _ pte () 와 mk _ pte () 마크로를 리용하여 페지표에 기록한다. address 에 페지틀길이 인 
4096을 더한 후 다시 반복한다. 

vmalloc _ area _ pages () 는 현재프로쎄스의 페지표을 건드리지 않는다는 사실에 주목 
하자. 그래서 어떤 프로쎄스가 핵심부방식에서 불련속적인 기억기령역에 접근하면 해당 
령역에 대한 프로쎄스의 페지표입구점은 비여있으므로 폐지절환이 발생한다. 그렇지만 
폐지절환운전기 는 잘못된 선형 주소를 주핵 심부폐 지 표(이것은 init _ min . pgd 폐지대 역 등록 
부와 이것의 자식폐지표이다.)에서 검사한다. 운전기는 주핵심부폐지표에서 그 주소에 
대 한 비 여있지 않는 입 구점 이 있음을 발견하면 그 값을 프로쎄 스의 해 당 폐 지 표입 구점 으 
로 복사하고 프로쎄스의 정상적 인 실행 을 재개한다. 3장에 있는 폐지절환례외 처리기 에 
서 이 과정을 설명한다. 

4) 불련속적인 기억기령역해제 

불련속적 인 기 억기 령 역을 해제할 때 에는 v 打 ee () 함수를 사용한다. 여기에 전달하는 
파라메터 addr 로 해제 할 령역의 시작선형주소를 지정한다. vfreeO 는 먼저 vmlist 가 
가리키는 목록을 검색하여 해제할 령역과 관련한 령역서술자의 주소를 찾는다. 
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void vfree(void * addr ) 

{ 

BUG_ON (in Jnterrupt ()); 

— vunmap ( addr , 1); 

} 

void — vunmap(void * addr , int deallocate _ pages ) 

{ 

struct vm_struct * area ； 


if (! addr ) 

return ； 


if (( PAGE _ SIZE -1) & (unsigned long ) addr ) { 

printk ( KERN_ERR "Trying to vfreeO bad address (% p )\ n ", 

addr ) : 

WARN _ ON ( l ); 

return ； 


(% p )\ n'V 


area = remove _ vm_area ( addr ) : 
if ( unlikely (! area )) { 

printk ( KERN_ERR "Trying 

addr ); 

WARN _ ON ( l )； 
return ； 


to vfreeO nonexistent vm area 


if ( deallocate _ pages ) { 
int i ； 


for (i = 0； i < area -> nr _ pages : i ++) { 
if (unlikely (! area->pages [ i ])) 
BUG ()； 

— free_page ( area->pages [ i ]); 
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kfree ( area -〉 pages ) ; 


kfree ( area ) ; 
return ； 


서술자의 size 마당은 해제할 령 역의 크기를 지정 한다. 령 역 자체를 해제할 때 에는 
vmfree _ area _ pages 0를 서술자를, 서술자를 해제할 때에는 kfreeO 를 호출한다. 

vmfree _ area _ pages () 함수는 령 역의 시 작선형주소와 크기 라는 두 파라메 터를 받는 
다. 이 함수는 다음 코드를 실행하여 vmalloc _ area _ pages () 가 수행한 작업을 되돌린다. 
dir = pgd _ offset_k ( address ) ； 
while ( address < end ) { 
free _ area_pmd ( dir , address , end - address ) ； 
address = ( address + PGDIR _ SIZE ) & PGDIR . MASK ； 
dir ++； 

} 

차례로 free _ area _ pmd () 는 alloc _ area _ pmd () 가 수행 한 작업을 되돌린다. 
while (address < end ) { 
free _ area _ pte ( pmd , address , end - address ); 
address =( address + PMD _ SIZE ) & PMD _ MASK ； 
pmd ++ ； 

} 

다시 free _ area _ pte () 는 alloc _ area _ pte () 가 수행한 작업을 되돌린다. 

while (address < end ) { 

pte_t page =* pte ； 

pte _ clear ( pte ); 

address += PAGE _ SIZE ； 

pte ++； 

if ( pte_none ( page )) 
continue ； 

if ( pte_present ( page )) { 

_ free_page ( pte_page ( page )) ； 
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continue : 

} 

printk ( “ Whee"-Swapped out page in kernel page table \ n ” ); 

} 

불련속적인 기억기령역에 할당한 각 페지틀을 해제할 때에는 형제체계의 
_ free _ page () 함수를 리용한다. pte _ clear 마크로를 사용하여 페지표의 해당 입구점을 
0으로 설정한다. 

vmallocO 을 할 때 핵심부는 주핵심부폐지대역등록부와 이것의 자식페지표의 입구 
점 (1 절에 있는《 핵심부페지표》참고)을 수정하지만 마지막 1 GB 를 배 치하는 프로쎄스 
의 페지표입구점은 고치지 않는다. 이렇게 해도 핵심부는 주핵심부폐지대역등록부를 뿌 
리로 하는 패지중간등록부와 페지표을 재사용하지 않기때문에 일없다. 

례를 들어 프로쎄스가 핵심부방식에서 불련속적인 기억기령역에 접근한 후 이 령역을 
해제하였다고 하자. 3장에 있는《폐지절환례외처리기》에서 설명하는 기구를 통해 프로 
쎄스의 폐지대 역등록부입구점은 주 핵 심부폐지대 역등록부의 해 당 입구점과 같아진다. 이 
것들은 같은 페지 중간등록부와 페 지표를 가리 킨다. vmfree _ area_pages () 함수는 페지표 
입구점만을 지운다. (페지표자신을 재사용하지 않는다.) 앞으로 프로쎄스가 해제한 불련속 
적인 기억기령역에 접근하면 폐지표입구점이 비여있으므로 폐지절환이 발생한다 . 그런데 
주핵심부페지표에 유효한 입구점이 없기때문에 운전기는 이것을 오유라고 판단한다. 


제3 절. 디스크캐쉬 

이 절에서는 디스크캐쉬를 살펴본다. 즉 Linux 가 디스크접근을 최대한 줄여서 체 
계성능을 높이려고 복잡한 기술을 어떻게 사용하는지 보여준다. 

2장의 《 공통파일 모형》에 서 살펴 본것 처 럼 디 스크캐 쉬는 보통디 스크에 저 장한 일부 
자료를 RAM 에 서 저 장하고있도록 하는 쏘프트웨어 기 구로 후에 다시 이 자료에 접 근할 
때 에는 디스크에 접근하지 않고 빨려 처러할수 있다. 

Linux 는 VFS 가 파일경로명을 대응하는 색 인마디로 변환하는 속도를 높이려고 사용 
하는 등록부입구점캐쉬외 에 두가지 주요디스크캐쉬 즉 완충기캐쉬와 폐지캐쉬를 사용한다. 

이름에서도 알수 있는것 처 럼 《 완충기개쉬》는 완충기를 저 장하는 디스크캐쉬 이 다. 
매 완충기는 디스크블로크 하나를 저장한다. 블로크입출력연산은 디스크 접근회수를 줄 
이려고 완충기캐쉬를 사용한다. 

한편 《폐지캐쉬》는 페지를 저장하는 디스크캐쉬이다. 패쉬의 각 폐지는 정규파일 
이나 블로크장치파일의 여러 블로크에 대응한다. 물론 한 폐지에 들어갈수 있는 블로크 
의 수는 블로크의 크기에 따라 다르다. 페지의 모든 블로크들은 론리적으로 련속한다. 
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즉 정 규파일 이 나 블로크장치파일 에 서 련속된 부분이 다. 핵 심 부는 디 스크접 근회 수를 줄이 
기 위해 폐지입출력 연산을 시 작하기 전에 요청한 자료가 이미 페지캐쉬 에 저 장되 여있는 
지 검사한다. 표 4-8 에서는 널 리 쓰이는 입 출력연산에서 완충기캐쉬와 페지캐쉬를 어 떻 
게 사용하는지 보여준다. 일부 실례는 Ext 2 파일체계에 관한것이지만 대부분의 디스크기 
반 파일체계에 똑같이 적용한다. 


g 4-8. _ 완충71카 t 수【오卜 퍼[지카!수 [ k\S 


핵심부함수 

체계 호출 

캐 쉬 

입출력 연산 

bread () 

없음 

BufferExt 2 

초블로크를 읽음 

bread () 

없음 

BufferExt 2 

색인마디를 읽음 

generic file read 0 

getdents 0 

PageExt 2 

등록부를 읽음 

generic file read () 

read () 

PageExt 2 

정규파일을 읽음 

generic file write 0 

write () 

PageExt 2 

정규파일에 씀 

generic file read () 

read () 

Page 

블로크장치파일을 읽음 

generic file write 0 

write 0 

Page 

블로크장치파일에 씀 

filemap nopage () 

없음 

Page 

기억기사영파일접근 

brw _ page () 

없음 

Page 

교환하여 내보낸 폐지접 

근 


다음에 나오는 부분들에서 이 표의 각 연산을 다룬다. 

Ext 2 초블로크를 읽음 
Ext 2 색인마디를 읽음 
Ext 2 색인마디를 읽음 
Ext 2 등록부를 읽음 
Ext 2 정규파일을 읽음 
Ext 2 정규파일에 쓰기 
블로크장치파일을 읽음 
블로크장치파일에 쓰기 
기 억 기 넘 기 파일 접 근 
교환하여 내보낸 페지접근 

또 이 표에서 각 류형의 입 출력 작업을 시 작하기 위 한 체계 호출과 이것을 처 리하는 
핵심부함수를 알수 있다. 

표에서 알수 있는것처 럼 기 억기넘 기기파일과 바꿔내보내 기페지를 사용하는데는 체 계 
호출이 필요없다. 프로그람작성 자는 기 억기넘기기파일과 교환하여내 보내 기폐지 를 볼수 
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없다. 파일기억기배치를 설정하거나 교환을 활성화하면 응용프로그람은 기억기사영파일 
이 나 교환하여내 보내기폐지를 마치 일반기 억기처 럼 사용한다. 처 리기가 요청 한 폐지가 
(기억기가 아닌)디스크에 있을 때 해당 폐지를 기억기로 가져올 때까지 처리기를 뒤로 
연기 하는 작업은 핵심부가 한다. 

블로크장치파일과 정규파일을 읽기 위해 동일한 핵심부함수 generic _ file _ read () 를 
사용하고 블로크장치파일과 정규파일에 쓰기 위해 동일한 핵심부함수 
generic _ file _ write () 를 사용한다. 

1. 페지캐쉬 

핵심부는 불필요한 디스크접근을 피하려고 항상 패지캐쉬를 검색하여 요청한 자료가 
있는지 확인하고 캐쉬에 없을 때에만 디스크에서 폐지를 읽는다. 폐지캐쉬를 사용하여 
최대한 효률을 높이기 위해 페지캐쉬 검색은 아주 빨라야 한다. 

물론 폐지캐쉬에 저장되는 정보의 단위는 한 폐지의 자료 전체이다. 폐지가 반드시 
물리적으로 린접한 디스크블로크를 소유하고있을 필요가 없으므로 폐지를 장치번호와 블 
로크번호로 나타낼수 없다. 그 대신 폐지캐쉬에 들어있는 폐지를 나타내기 위해 
address_space 라는 자료구조의 주소와 address_space 자료구조가 나타내 는 파일 (또는 
다른 무엇)내에서의 편위를 사용한다. 

1) Address_space 객체 

표 4-8 에서 살펴본것처럼 Linux 의 패지캐쉬는 여러 입출력연산의 속도를 높이기 
위해 사용한다. 폐지캐쉬에는 다음과 같이 여러 류형의 폐지가 들어갈수 있다. 

■ 디스크기반 파일체계의 정규파일과 등록부의 자료를 담고있는 폐지. 

■ 기 억 기 사영 파일의 자료를 담고있는 페 지 . 

• 블로크장치 파일 에 서 (파일체 계 계 층을 건너 뛰 고) 직 접 읽 은 자료를 담고있는 페 지 , 
핵심부는 정규과일의 자료를 담고있는 폐지에 사용하는 함수와 동일한 함수를 사용해서 
이것들을 처 리한다. 

■ 디스크에 교환하여내보낸 사용자방식처리기의 자료를 담고있는 패지, 이미 교환령 
역에 기록한 내용을 담고있는 폐지캐쉬를 핵심부가 계속 유지하도록 할수 있다. 

• IPC(Interprocess Communication ) 공유기 억기 령역에 속하는 폐지 . 

페지캐쉬의 각 폐지를 어떻게 처리하겠는지 핵심부가 어떻게 알수 있는가? 례를 들 
어 핵심부가 폐지캐쉬에 있는 폐지의 내용을 수정하려 한다고 하자. 폐지내용을 정규파 
일，등록부, 블로크장치파일, 교환령역에서 읽는것은 서로 다른 연산이고 핵심부는 반드 
시 폐지류형별로 적절한 연산을 실행해야 한다. 

페지와 폐지에 대해 동작하는 메쏘드사이의 관계를 설정하는 주요 자료구조는 
address_space 객체이다. 정확히 말하자면 각 address_space 객체는 일반핵심부객체 
(소유자 ( owner ) 라고 부른다.)와 이 소유자에 속한 페지에 대해 동작하는 메쏘드사이에 
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련결을 설정한다. 

앞에서 설명한것 처 럼 폐지패쉬 는 다섯개 종류의 폐지를 가질수 있으며 따라서 폐지 
는 다섯개 종류의 소유자에 속할수 있다. 

례를 들어 폐지가 Ext 2 파일체계의 정규파일에 속하면 페지의 소유자는 색인마디객 
체이다. 이 객체의 i_maping 마당은 address_space 객체 하나를 가리 키고 이 
address _ space 객체는 핵심부가 이 정규파일의 자료를 담고있는 폐지에 대해 사용할 메 
쏘드집합을 정의한다. 

address _ space 객체는 표 4-9 에 렬거한 마당을 포함한다. 


fi 4-9. address _ space 객체의 [1당 


형 

마당 

설명 

struct list head 

private list 

폐지 목록 

struct list_head 

i _ mmap_nonlin 

ear 

비선형 으로 할당된 폐지목록 

unsigned long 

nrpages 

소유자의 페지수 

struct address_space 

operations * 

a_ops 

소유자의 패지를 대상으로 하는 메쏘드 

struct inode * 

host 

객체를 소유한 색인마디의 지시자 

struct prio tree root 

i mmap 

비공유 기억기배치의 기억기령역 목록 

spinlock_t 

i _ mmap_lock 

기 억기령역의 목록에 대한 스핀잠그기 


private_list 마당은 폐지서술자목록머리부를 나타낸다. 우의 세 목록은 
address _ space 객체의 소유자에 속한 모든 페지를 포함한다. 각 목록의 역 할은 다음 절 
에서 설명한다. nrpages 마당은 세 목록에 삽입된 모든 페지수를 나타낸다. 

address _ space 객체 의 소유자는 임의의 일반핵 심부객체 일수 있지만 일반적 으로 
VFS 색 인마디객체 이 다.(페지캐쉬는 디 스크접근속도를 높이려 고 도입한것이 다.) 이 경우 
host 마당은 address _ space 객체를 소유하는 색 인마디를 가리 킨다. 

i _ mmap , i _ mmap _ nonlinear , i _ mmap _ lock 마당은 address _ space 객체의 소유자 
가 기 억 기 사영 파일의 색 인마디 일 때 사용된다. 

address _ space 객체에서 가장 중요한 마당은 a _ ops 이다. 이 마당은 소유자의 페지 
를 어떻게 처리할것인지를 정의하는 메쏘드를 담고있는 address _ space _ operations 형태 
의 표를 가리 킨다. 메쏘드는 표 4-10 과 같다. 
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표 4-10. 

address _ space 객체의 IH [쏘드 

메쏘드 

설 명 

writepage 

쓰기연산(폐지에서 소유자의 디스크영상으로) 

Readpage 

읽기연산(소유자의 디스크영상에서 폐지에로) 

sync page 

폐지에 대해 이미 순서짜기된 입줄력자료전송을 시작함 

prepare write 

쓰기 연산을 준비 함(디스크기 반파일체계 에서 사용) 

commit write 

쓰기 연산을 완료함(디스크기 반파일체계 에서 사용) 

Bmap 

과일블로크색인에서 론러적블로크번호를 얻음 

flushpage 

소유자의 디스크영상에서 페지를 삭제할 준비를 함 

releasepage 

기록형파일체계 에서 패지를 해제하기 위해 사용함 

direct 一 IO 

폐지의 자료를 직접 입출력 전송함 


가장 중요한 메 쏘드는 readpage , writepage , prepare _ write , commit _ write 이다. 
후에 이 메쏘드들을 설명 한다. 대부분의 경우 메쏘드는 물리적장치 에 접근하는 저수준장 
치구동프로그람과 소유자색 인마디객 체를 련결해 춘다. 례를 들어 정규파일의 색 인마디 에 
대한 readpage 메쏘드는 파일의 특정한 폐지에 대응하는 블로크가 물러적디스크장치에 
있는 위치를 어떻게 찾아내는지 알고있다. 

2) 폐지캐쉬자료구조 

페지캐쉬는 다음의 주요자료구조를 사용한다. 

페 지 하쉬 표 

address _ space 객체와 편위 (일반적으로 파일편위)로 지정한 폐지에 대해 핵심부가 
폐지서술자주소를 빨리 얻을수 있게 한다. 

address _ space 객체에 있는 폐지서술자목록 

address _ space 객 체 가 가리 키 는 특정 한 색 인마디 객 체 (또는 다른 핵 심 부객 체 )가 소 
유한 지정한 특정상태의 모든 패지를 핵심부가 빨리 얻을수 있게 한다. 

페지캐쉬를 다루는 작업은 이 자료구조에 항목을 추가하고 제거하는 일, 캐쉬된 페 
지를 참조하는 모든 객체의 마당을 수정하는 일 등을 포함한다. pagecache _ lock 스핀잠 
그기는 다중프로쎄 스체 계 에서 폐지캐쉬자료구조를 동시 에 접근하는것 을 방지 한다. 
o 폐지하쉬표 

처리기가 커다란 파일을 읽을 때 폐지캐쉬는 점점 이 파일의 페지로 채워지게 된다. 
이 런 경우 요청한 파일부분에 대 한 폐지를 찾으러 고 폐지서술자목록를 탐색 하는데 오랜 
시간이 걸릴수 있다. 

그렇기때문에 Linux 는 페지서술자지시자의 하쉬표인 page _ hash _ table 을 사용한다. 
이 하쉬표의 크기는 체계의 RAM 크기에 따라 다르다. 례를 들어 128 MB 를 보유한 체계 
인 경우 page _ hash _ table 에 폐지기발 32개를 저장하고 폐지서술자지시자 32768개를 
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포함한다. 

page _ hash 마크로는 address _ space 객체의 주소와 편위 값에서 하쉬 표에 있는 입구의 
주소를 얻는다. 여기서도 충돌이 발생한 하쉬항목을 처리하기 위해 하쉬사슬 ( chaining ) 
을 사용한다. 즉 폐지서술자의 nex : t _ hash 와 pprev _ hash 마당을 사용해서 하쉬값이 동 
일한 입구로 구성된 이중원형목록를 구성한다. page _ cache _ size 변수는 하쉬표(결국 전 
체 폐지캐쉬)의 충돌목록에 포함된 폐지서술자의 수를 나타낸다. 

add _ page _ to _ hash_queue () 와 remove _ page _ from _ hash_queue 0 함수는 항목을 
하쉬표에 추가하고 표에서 항목을 삭제 한다. 

o address _ space 객체에 있는 페지서술자목록 

이미 살펴본것처럼 address _ space 객체는 3가지 폐지서 술자목록를 포함한다. 
clean _ pages , dirty _ pages , locked _ pages 마당에 각 목록의 머 리 부가 들어있 다. 핵 심 
부는 이 목록를 사용하여 특정상태에 있는 파일의 모든 패지를 빨리 찾을수 있다. 
clean_pages 

잠그기가 걸려 있지 않으며 불결하지 않은 폐지를 포함한다.(폐지서술자의 
PG _ locked 와 PG _ dirty 기발은 0이다.) PG _ uptodate 기발은 페지에 있는 자료가 최신 
( up _ to _ date ) 인 폐지를 나타낸다. 디스크영상에서 아직 패지내용을 읽지 않았다면 폐지 
는 최신상태가 아니다. 
dirty_pages 

최신자료를 담고있는 폐지를 포함한다. 그러나 디스크의 영상은 수정되지 않았다. 
폐지서술자의 PG _ uptodate 와 PG _ dirty 기발은 설정되고 PG _ locked 기발은 설정되지 
않는다. 

locked_pages 

디스크에 읽거나 쓰는중인 내용을 담고있는 페지를 포함한다. 따라서 페지에 접근할 
수 없다. PG_locked 기발이 설정된다. 

add _ page _ to _ inode_queue () 함수는 페 지 서술자를 address_space 객 체 의 

clean _ pages 목록에 삽입 한다. remove _ page _ from _ inode _ queue () 는 페지서술자를 현 
재 담고있는 목록에서 삭제한다. 핵심부는 폐지의 상태가 바뀔 때마다 폐지서술자를 한 
목록에서 다른 목록으로 옮긴다. 

o 폐지패쉬관련 폐지서술자마당 

페지 가 패지캐쉬 에 들어있을 때 페지서술자의 일부마당은 특수한 의미를 나타낸다. 
list 

페지상태에 따라 각각 address _ space 객체의 clean , dirty , locked 상태인 페지를 
담고있는 2중련결목록의 이전, 다음 요소를 나타내는 지시자를 포함한다. 
mapping 

페지가 속한 address _ space 객체를 가리킨다. 페지가 페지캐쉬에 속하지 않으면 이 
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마당은 NULL 이다. 

index 

페지소유자가 색인마디객체면 디스크영상에서 폐지에 들어있는 자료의 위치를 나타 
낸다. 이 값의 단위는 페지의 크기이다. 

이 함수의 이 름은 이 전 판본인 2. 2핵 심 부에 서 유래 되 였 다. 

next_hash 

페 지하쉬목록에서 충돌하는(하쉬 값이 같은) 다음폐지서술자를 가리 킨다. 

pprev_hash 

페지하쉬목록에서 충돌하는 이전폐지서술자의 next _ hash 마당을 가러킨다. 또한 페 
지패쉬 에 폐지를 삽입할 때 대 응하는 폐지서술자의 사용계수기 ( count 마당)를 증가시 킨 
다. count 마당값이 정확히 1이면 폐지는 캐쉬에 속하지만 어떤 처리기도 이 폐지에 접 
근하고있지 않다. 따라서 여유기억기가 모자라면 언제든지 이 폐지를 폐지캐쉬에서 삭제 
할수 있다. 

3) 폐지캐쉬처리함수 

페지캐쉬를 사용하는 고수준함수들은 페지를 람색하고 추가하고 제거한다. 

find _ get _ page 마크로는 address _ space 객체의 주소와 편위 값을 변수로 받는다. 이 
마크로는 page _ hash 마크로를 사용하여 변수의 값에 대응하는 하쉬표입구의 주소를 얻 
고 _ find _ get _ page () 함수를 호출하여 적절한 충돌목록에서 요청한 페지서술자를 찾는 
다. — find _ get _ page () 는 pagecache _ lock 스핀잠그기를 얻고 하쉬 값이 같은 입구의 
목록를 람색한 다음 스핀잠그기를 해제한다. 폐지를 찾으면 대응하는 페지서술자의 
count 마당을 증가시키고 그 주소를 반환한다. 그렇지 않으면 NULL 을 반환한다. 

add _ to _ page _ cache () 함수는 새로운 페지서술자(주소는 변수로 전달한다.)를 폐지 
캐쉬 에 삽입한다. 이 작업은 다음과 같은 과정을 거친다. 

1. pagecache _ lock 스핀잠그기를 얻 는다. 

2. 메지기발의 PG _ uptodate , PG _ error , PG _ dirty , PG _ referenced , 
PG _ arch _ l , PG _ checked 기발을 지우고 폐지기발의 PGJocked 기발을 설정한다. 즉 
폐지가 잠그기되여있으며 캐쉬 에 들어있고 아직 자료로 채워지지 않았음을 나타낸다. 

3. 페지서술자의 count 마당을 증가시킨다. 

4. 페지서술자의 index 마당을 변수로 넘겨준 값으로 초기화한다. 이 값은 폐지디스 
크영상에서 페지에 들어있는 자료의 위치를 나타낸다. 

5. add _ page _ to _ inode _ queue 0를 호출하여 페지서술자를 address _ space 객체의 
clean _ pages 목록에 삽입 한다. Address _ space 객체의 주소는 변수로 전달된다. 

6. add _ page _ to _ hash _ queue () # 호출하여 폐지서술자를 하쉬 표에 삽입 한다. 
address_space 객체의 주소와 페지의 index 마당의 값을 하쉬열쇠로 사용한다. 

7. pagecache _ lock 스핀잠그기를 해제 한다. 
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8. lru_caclie_add() 를 호출하여 페지서술자를 비활성 (inacWve) 목록에 추가한다. 

find_or_create_page() 함수는 flnd_get_page 와 류사하다. 그렇지만 요청한 페지 
가 패쉬에 없을 때 alloc_page() 를 호출하여 새로운 폐지기발을 얻은 다음 
add_to_page_cache() 를 호출하여 페지서술자를 페지캐쉬에 삽입한다. 

remove_inode_page() 함수는 페 지 서 술자를 페 지 패 쉬 에서 제거 한다. 이 함수는 pag 
ecache_lock 스핀 잠그기를 얻은 다음 remove_page_from_inode_queue() , remove_ 
page_from_hash_queue () 를 호출하고 스핀 잠그기를 해제 한다. 

2. 완충기캐쉬 

완충기캐쉬 (Buffer cache) 의 핵심은 상대적으로 느린 디스크가 자료를 읽고 쓰는 
작업이 끝날 때까지 처리기가 기다리지 않고 다른 일을 수행할수 있도록 처리기를 놓아 
주는것이다. 따라서 한번에 많은 자료를 쓰는것이 오히려 비생산적일수도 있다. 대신 자 
료를 조금씩 일정한 간격으로 기록하여 입출력연산이 사용자처리기의 성능과 사용자가 
느끼는 응답시 간에 주는 영향을 최소한으로 줄여 야 한다. 

핵심부는 완충기 기록속도를 조절하려고 매 완충기에 관한 많은 정보를 관리한다. 
여기에는 기억기내에 있는 완충기가 바뀌였으므로 기록해야 함을 나타내는《불결한》비 
트와 디스크에 흘러기 전에 기억기에 완충기를 얼마동안이나 저장해놓을지를 나타내는 
시간형를 포함한다. 완충기에 대한 정보는 완충기머 리부에 저장한다. 이 자료구조는 사 
용자자료완충기와 함께 잘 관리해 야 한다. 

완충기캐쉬의 크기는 가변적이다. 사용할수 있는 완충기가 없을 때 새로운 완충기에 
대한 요청이 들어오면 폐지틀을 할당한다. 반대로 여유기억기가 모자랄 때 완충기를 해 
제 하고 해 당 페 지 틀을 재 사용한다. 

관중기 캐 쉬는 두가지 자료구조로 구성 된다. 

• 캐 쉬 에 들어 있는 완충기 를 나타내 는 완충기 머 리부 집 합 

• 주어진 장치와 블로크번호쌍에 대응하는 완충기를 나타내는 완충기머리부를 핵심 
부가 빨리 찾도록 도와주는 하쉬표 

1) 완충기머리부자료구조 

매 완충기머리부의 자료구조는 bu;ffer_head 이다. 이 자료구조에는 자신만의 스랩 
할당자캐쉬인 bh_cachep 를 포함한다. 이 캐쉬를 완충기캐쉬 자체와 혼돈하면 안된다. 
스램 할당자캐쉬는 완충기머리부객체 를 위 한 기 억기캐쉬 이며 이 캐쉬는 디스크와 호상작 
용하지 않으며 기억기를 효률적으로 관리하기 위한 기법에 불과하다. 반대로 완충기캐쉬 
는 완충기에 들어있는 자료를 위한 디스크캐쉬이다. 

블로크장치장치구동프로그람이 사용하는 각 완충기마다 완충기의 현재 상태를 나타 
내 는 완충기머 리부가 반드시 있어 야 한다. 완충기머 리부는《 사용하지 않음》상태 인 경 
우가 있으며 이 경우 대응하는 완충기가 없다. 핵심부는 어느 정도 《사용하지 않음》 
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상태 인 완충기머 리부를 가지 고있어서 지속적 으로 기 억기를 할당하고 해제 하는 상태를 
피한다. 

일반적으로 완충기머 리부는 다음 상태중 하나이 다. 

O 사용하지 않는 완충기 머 리부 

이 객체를 사용할수 있다. 마당값은 무의미하다. b_dev 마당의 값은 

B _ FREE ( Oxffff ) 이다. 

0 캐쉬된 완충기에 대한 완충기머리부 

b _ data 마당은 완충기캐쉬에 저장된 완충기를 가러킨다. b _ dev 마당은 블로크장치를 
나타낸다. BH _ Mapping 기발이 설정된다. 그리고 완충기는 다음 상태 중 하나일수 있 다. 

최 신상태 가 아니 다. ( BH _ Uptodate 기 발이 지 우기 상태 ) 

완충기의 자료가 유효하지 않다. (례 를 들면 자료를 디 스크에서 아직 읽 지 않은 경 우) 

불결 하다. ( BH _ Dirty 기 발이 설정 됨) 

완충기의 자료가 변경되였으며 디스크의 해당 블로크를 갱신해 야 한다. 

잠그기 상태 다. ( BH _ Lock 기 발이 설 정 됨 ) 

완충기에 대해 입출력자료전송이 진행중이다. 

2) 비동기완충기머리부 

비동기 완충기머 리부의 b _ data 마당은 폐지입 출력 연산을 위 해 사용하는 폐지의 완충 
기를 가러 킨다. 이 경우 BH _ Async 기 발이 설정된다. 폐지입출력 연산을 완료하면 
BH _ Async 기발이 삭제되지만 완충기머리부는 해제하지 않는다. 대신에 할당된채로 페 
지의 단순련결원형목록에 삽입된다. 따라서 매번 새로 할당하는 부하없이 재사용할수 있 
다. 비동기완충기머리부는 핵심부가 기억기를 회수할 때 언제나 해제된다. 엄밀히 말하 
면 완충기캐쉬 자료구조는 캐쉬완충기 에 대 한 완충기머 리부를 가리키는 지시 자만 포함한 
다. 완충기캐쉬에서 볼수 있는 완충기머리부뿐만아니라 모든 종류의 완충기머리부를 다 
루기 위해 핵심부에서 사용하는 자료구조와 메 쏘드를 고찰한다. 

° 사용하지 않는 완충기머리부목록 

사용하지 않는 ( unused ) 완충기머리부는 단순련결목록에 저장한다. unused _ list 변 
수가 목록의 첫번째 항목을 가리킨다. 목록내에 있는 다음입구의 주소는 각 완충기머 리 
부의 b _ next _ free 마당에 저 장한다. 목록의 현재 입 구수는 nr _ unused _ bu 打 erjieads 변 
수에 저 장한다. 다중프로쎄 스체 계 에서는 동시 접근을 방지 하려 고 unused _ list_lock 스 
핀잠그기를 사용한다. 

사용하지 않는 완충기머리부의 목록은 완충기머리부객체를 위한 1차적인 기억기캐 
쉬로 동작하며 bh _ cachep 스랩할당자 캐쉬는 2차적인 기억기캐쉬로 동작한다. 완충기머 
리부가 더는 필요하지 않으면 사용하지 않는 완충기머리부목록에 삽입한다. 완충기머리 
부는 목록입구수가 MAX _ UNUSED _ BUFFERS (보통 100입구)를 넘는 경우에만 해제 
되 여 스램 할당자로 들어 간다. (핵 심부가 완충기머 리부와 관련한 기 억기를 해제 하는 단계 
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이 다. ) 다시말해 서 이 목록에 들어있는 완충기머 리부는 스램할당자립 장에 서 는 할당된 객 
체로 간주하며 완충기캐쉬립장에서는 사용하지 않는 자료구조로 간주한다. 

목록의 입구중 NR_RESERVED (보통 80) 개는 폐지 입 출력 연산을 위 해 예 약되 여 있 
다. 리유는 여유완충기머리부가 없어서 발생할수 있는 위험한 교착 ( deadlock ) 을 방지하 
기 위해서이다. 핵심부는 여유기억기가 모자라면 페지를 디스크로 바꿔내보내기 하여 페 
지틀을 해제하려 한다. 이 과정 에 패지입출력 파일연산을 위해 적 어도 추가완충기머 리부 
하나가 펼요하다. 교환알고리듬이 완충기머리부를 얻지 못하면 계속 기다리면서 완충기 
를 해제할수 있도록 파일에 대한 쓰기를 지속해야 한다. 진행중인 파일연산을 완료하면 
완충기머리부가 적어도 NR_RESERVED 개 해제되기때문이다. 

새로운 완충기머리부를 얻기 위해 get _ unused _ bu ; ffer_headO 함수를 호출한다. 
이 함수는 다음과 갈은 연산을 수행 한다. 

1. unused _ list_lock 스핀잠그기를 얻 는다. 

2. 사용하지 않는 완충기머 리부목록이 항목을 NR_RESERVED 개 이상 포함하고있으 
면 그중 하나를 목록에서 제거하고 스핀잠그기를 해제한 다음 머리부의 주소를 반환한다. 

3. 그렇지 않으면 스핀잠그기를 해제하고 우선순위 GFP_NOFS 로 
kmem _ cache _ alloc () 을 호출하여 bli_cadiep 스랩할당자캐쉬에서 새로운 완충기머리부 
를 할당한다. 이 연산이 성공하면 그 주소를 반환한다. 

4. 여 유기 억 기 가 없 다. 완충기입 출력 연산을 위 해 완충기 머 리 부를 요청 한 경 우라면 
NULL (실패)을 반환한다. 

5. 여 기까지 왔다면 폐지입출력연산을 위 해 완충기머 리부를 요청 한 경우이 다. 사용 
하지 않는 완충기 머 리 부의 목록이 비 여있지 않다면 unused _ list_lock 스핀잠그기 를 얻 
고 입구 하나를 제거하고 스핀잠그기를 해제하고 완충기머리부의 주소를 반환한다. 

6. 그렇지 않고 목록이 비 여있다면 NULL (실패)을 반환한다. 

put _ unused _ buffer_head () 함수는 완충기 머 리 부를 해 제 하는 반대 연산을 실행 한다. 

이 함수는 사용하지 않는 완충기머리부목록이 MAX _ UNUSED_BUFFERS 보다 적은 항 
목을 포함하고있다면 객체를 목록에 삽입한다. 그렇 지 않으면 완충기머 리부에 대 해 
kmem _ cac ] ie _ free () 를 호출하여 객체를 해제하여 스랩할당자에 넣는다. 

o 캐쉬완충기 에 대한 완충기머 리부목록 

완충기가 완충기패쉬 에 속한 경우 완충기머 리부의 기발이 완충기의 현재상태를 알아 
낸다. 례를 들어 블로크가 캐쉬 에 없으면 디스크에서 블로크를 읽 어 야 하는데 새로운 완 
충기를 할당하고 완충기의 내용이 의미가 없으므로 완충기머리부의 BH_Uptodate 기발 
을 지운다. 디스크에서 읽어서 완충기를 채우는 동안 BH_Lock 기발은 1로 설정되여 완 
충기가 해제되는것을 막는다. 읽기연산을 성공적으로 마치면 BH_Uptodate 기발은 1로 
설정되 고 BH_Lock 기 발을 지운다. 디스크에 블로크를 기록해 야 하는 경우 완충기내 용 
이 바뀌므로 BH_Dirty 기발을 1로 설정한다. 기발은 완충기가 성공적으로 디스크에 기 
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록된 다음에만 지워 진다. 

사용중인 완충기와 관련한 모든 완충기머리부는 2중련결목록에 저장한다. 
b _ next _ free 와 b _ prev_free 마당이 2중련결목록을 구성한다. 3가지 다른 목록이 있는 
데 마크로 정의한 색 인으로 식별한다. ( BUF _ CLEAN , BUF _ DIRTY , BUF _ LOCKED ) 
이 목록들을 곧 정 의한다. 

불결한 완충기를 디스크로 흘러는 속도를 높이려고 세 목록를 도입하였다. (뒤부분에 
있는《디스크에 불결한 완충기 기록하기)를 참고) 효률성을 높이기 위해 완충기머리부 
는 상태가 바껄 때 한 목록에서 다른 목록으로 즉시 이동하지 않는다. 

BUF_CLEAN 

이 목록에 는 불결 하지 않는 완충기 ( BH _ Dirty 기 발이 off ) 의 완충기 머 리 부를 포함한 
다. 반드시 최신목록완충기일 필요는 없다. 즉 반드시 유효한 자료를 포함해 야 할 필요 
가 없다는 의미 이다. 최신완충기가 아니라면 잠그기걸린 상태 ( BH_Lock on ) 거 나 이 
목록에 있는동안 물리적장치로부터 읽도록 선택했을수도 있다. 이 목록에 있는 완충기머 
리부는 반드시 불결한것이 아니다. 즉 불결한 완충기를 디스크에 홀리는 함수는 대응하 
는 완충기를 무시한다. 

BUF—DIRTY 

이 목록에 는 주로 물리 적 장치 에 기 록하도록 선택하지 않은 불결 한 완충기 의 완충기 
머리부를 포함한다. 즉 아직 블로크장치구동프로그람에 대한 블로크요청에 포함되지 않 
은 불결 한 완충기를 포함한다. ( BH _ Dirty 는 on 이 고 BH _ Lock 은 off 이 다) 그러 나 이 
목록은 불결하지 않는 완충기도 포함하는데 어떤 경우 디스크에 흘러지도, 완충기머리 
부를 목록에서 제거하지도 않은 상태에서 불결한 완충기의 BH _ Dirty 기발이 지워지는 
경우가 있기때문이 다. (례를 들면 플로피 디스크를 탑재해제 하지 않고 구동프로그람에서 
제거했을 때이다. 물론 이 경우 대부분은 자료를 잃게 된다.) 

BUF_LOCKED 

이 목록에 는 주로 블로크장치 에서 읽 거 나 블로크장치 에 쓰기 위해 선택 한 불결한 완 
충기 의 완충기 머 리 부를 포함한다. ( BHJLock 은 on 이 다. add _ request () 함수가 블로크 
요청 에 완충기 머 리부를 포함하기 전에 이 값을 초기 화하므로 BH _ Dirty 는 지 워진다. ) 
그러나 어떤 잠그기가 걸린 완충기 에 대한 쓰기 연산을 완료하면 저수준블로크장치 운전기 
는 완충기 머 리 부를 목록에 서 제 거하지 않고 BH_Lock 기 발을 지 운다. 이 목록의 완충 
기 머 리 부는 불결 하지 않거 나 불결 하지 만 기 록을 위 해 선택 한 상태 이 다. 

사용중인 완충기와 관련한 완충기머리부의 경우 해당 완충기머리부의 b _ list 마당은 
완충기를 포함하는 목록의 색인을 지정한다. lm _ list 배렬은 각 목록의 첫번째 입구주소 
를 저장하고 ar _ bu 打 ers _ type 배 렬은 각 목록의 입구수를 저장한다. size _ buffers_type 
배럴은 (바이트 단위로)각 목록의 전체 용량을 저장한다. lruJist _ lock 스핀잠그기는 다 
중프로쎄 스체계 에서 배 럴에 동시 에 접 근하는것을 막는다. 
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mark_buffer_dirty() 와 mark_buffer_clean() 함수는 각각 완충기머리부의 
BH_Dirty 기발을 설정 하거나 지운다. 체계 전체의 불결 한 완충기의 수를 제한하기 위 해 
mark_buffer_dirty() 는 balance_dirty() 함수를 호출한다. (《 불결한 완충기를 디스크 
에 기록하기》참고) 두 함수 모두 refill_buffer() 를 호출한다. 이 함수는 BH_Dirty 와 
BH_Lock 기발의 값에 따라 완충기머리부를 적절한 목록으로 옳긴다. 

핵심부는 BUF_DIRTY 목록 외에도 각 색인마디객체마다 불결한 완충기의 2 중련결 
목록 두개 를 관리 한다. 이 것 들은 핵 심 부가 해 당 파일의 모든 불결 한 완충기 를 홀려야 할 
때 사용한다. 례를 들면 fsyncO 나 fdatasyncO 봉사호출을 처 리 할 때 다. (뒤 에 나오는 
《 sync 0 , fsync 0， fdatasync 公 체계 호출》참고) 

두 목록중에서 한 목록은 파일의 조종자료(디스크 색인마디와 갈은)를 담고있는 완 
충기들을 포함하고 다른 목록은 파일의 자료를 담고있는 완충기들을 포함한다. 이 목록 
들의 머리부는 각각 색인마디객체의 마당에 저장된다. 완충기머리부의 
b_inode_buffers 마당은 목록의 다음과 이전 요소를 가리킨다. 두 목록은 
lru_list_lock 스핀 잠그기로 보호한다. buffer_insert_inode_queue() 와 

buffer_insert_inode_data_queue() 함수를 사용하여 완충기머리부를 i_dirty—buffers 
와 i_dirty_data_buffers_lists 에 삽입 한다. inode_remove_queue 0 함수는 완충기 머 리 
부를 포함하는 목록에서 완충기머 리부를 제거한다. 

ᄋ 캐쉬된 완충기머리부의 하쉬표 

완충기캐쉬에 속한 완충기머리부주소는 큰 하쉬표에 삽입된다. 핵심부는 장치식별자 
와 블로크번호로부터 대응하는 완충기머리부의 주소를 얻기 위해 하쉬표을 사용한다. 

완충기머리부를 자주 검사하므로 하쉬표가 핵심부의 속도를 상당히 향상한다. 완충 
기입출력연산을 시작하기 전에 핵심부는 반드시 요청한 블로크가 이미 완충기캐쉬에 있 
는지 검사해야 한다. 이때 하쉬표는 핵심부가 캐쉬된 완충기목록를 오래동안 순차적으로 
람색 하는 상황을 막아준다. 

하쉬 표는 hash_table 배 렬 에 들어 있고 체 계 초기 화과정 에 할당된 다. 한편 그 크기 는 
체계에 설치된 기억기의 량에 따라 달타진다. 례를 들어 128MB RAM 을 보유한 체계에 
서 hash_table 은 페지기발 4 개에 저장되며 완충기머리부지시자 4096 개를 포함한다. 충 
돌한 입구들은 각 완충기머리부의 b_next 와 b_pprev 마당에 의해 2 중련결목록으로 련 
결된다. hash_table_lock 읽 기/쓰기 스핀잠그기 는 다중프로쎄스체 계 에서 하쉬 표자료구 
조를 동시에 접근하는것을 막는다. 

get_hash_table() 함수는 하쉬표에 서 완충기 머 리 부를 찾는다. 찾으러 는 완충기 머 리 
부를 장치번호，블로크번호, 대 응하는 자료블로크의 크기 라는 세 변수로 나타낸다. 함수 
는 장치번호와 블로크번호값을 해심하여 하쉬표에서 충돌목록의 첫번째 항목을 찾는다. 
그리고 목록에 있는 각 입구의 b_dev, b_blocknr, b_size 마당을 검사하여 요청한 완 
충기머 리부의 주소를 반환한다. 완충기머 리부가 캐쉬 에 없으면 함수는 NULL 을 반환한다. 
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3) 완충기사용계수기 

완충기머리부의 b_count 마당은 대응하는 완충기의 사용계수기이다. 계수기는 완 
충기에 대한 연산을 수행하기 직전에 증가하고 수행한 직후에 감소한다. 계수기는 주로 
보호를 위한 잠그기로 사용하는데 핵심부는 완충기의 사용계수기가 0이 아닌동안에는 
완충기 (또는 그 내 용)를 제 거 하지 않기 때 문이 다. 대 신 주기 적 으로 또는 여 유기 억기 가 모 
자라면 캐쉬된 완충기를 검사하여 계수기가 0인 완충기를 제거한다. 바꾸어 말하면 사 
용계수기가 0인 완충기는 완충기패쉬에 속할수 있지만 해당 완충기가 얼마나 캐쉬에 머 
물러 있을지는 알수 없다. 

핵심부조종경로가 완충기에 접근하려면 먼저 사용계수기를 증가시켜야 한다. 이 작 
업은 일반적으로 완충기를 찾는 getblkO 함수를 호출하여 처리하므로 계수기를 증가시 
키는 작업을 고수준함수가 명시적으로 처리할 필요는 없다. 핵심부조종경로가 완충기에 
접근하는것을 멈추면 brelseO 또는 blorgetO 을 호출하여 대응하는 사용계수기를 감소 
시킨다. 두 함수의 차이점은 bforgetO 은 완충기를 깨끗한 상태로 표시하여 아직 디스 
크에 기록하지 않은 변경된 완충기내용을 핵심부가 처 리하도록 한다. 

4) 완충기패지 

페 지 캐 쉬 와 완충기 캐 쉬 가 서 로 다른 디스크캐 쉬 이지 만 Linux 2.6 판본에서는 서 로 
공유되 여 있 다. 

사실 효률성때문에 각 완충기의 할당 단위는 개별 기 억기객체단위가 아니 다. 대신에 
완충기는《완충기폐지》라는 전용폐지에 저장된다. 한 완충기폐지안에 있는 모든 완충 
기는 같은 크기여야 한다. 따라서 80 x 86 구조에서 완충기폐지는 블로크크기에 따라 완충 
기를 1개부터 8개까지 포함할수 있다(1，2，4，8개). 

더 중요한 제 약조건은 한 완충기폐지의 모든 완충기는 반드시 블로크장치에서 린접 
한 블로크에 해당해야 한다는 점이다. 례를 들어 핵심부가 어떤 정규파일의 lkB 색인마 
디 블로크를 읽으러고 한다고 가정하자. 핵심부는 색인마디를 저장하기 위해 lkB 완충기 
를 하나 할당하는것이 아닌 완충기 4개를 저장할수 있는 한 폐지전체를 예약해야 한다. 
이 완충기는 요청한 색인마디블로크를 포함해서 블로크장치의 린접한 4개 블로크그룹의 
자료를 포함하게 된다. 

두가지 다른 방법 으로 완충기캐쉬를 취급한다는것은 리 해 하기 쉽다. 한가지는 완충 
기를 저장하는 저장소 ( container ) 역할로 이때에는 완충기캐쉬를 통해 완충기에 개별적 
으로 접근할수 있다. 다른 한가지는 각 완충기패지는 블로크장치과일의 4 kB 부분을 가질 
수 있으며 따라서 페지캐쉬에 포함된다. 바꾸어 말하면 완충기캐쉬에 캐쉬된 RAM 령역 
은 언제 나 폐지 캐 쉬 에 캐쉬된 RAM 령역의 부분집 합이 다. 이 기구는 완충기캐 쉬와 폐 지 
캐쉬 사이의 동기화문제를 획기적으로 줄여주는 우점이 있다. 

2.2 판본핵심부에서는 두가지 디스크 캐쉬 가 서 로 공유되 여있지 않았다. 어떤 물리 
적블로크는 RAM 에서 하나는 폐지캐쉬에 그리고 또 하나는 완충기캐쉬에 영상 두개를 
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가질수 있 었 다. 자료손실 을 방지하려 고 두 블로크의 기 억 기 영 상중 하나가 변경 되 면 2.2 
핵심부는 반드시 다른 하나를 찾아서 변경해야 하였다. 짐작할수 있지만 이것은 비용이 
많이 드는 작업 이 다. 

반면에 Linux 2. 6에서 완충기를 변경하는것은 완충기를 포함하는 폐지를 변경하는 
것 이고 반대경우도 마찬가지 이 다. 핵심부는 단지 완충기머 리부와 폐지서 술자의 불결한 
기발만 잘 살피면 된다. 례를 들어 완충기머 리부가 불결한것으로 표시되면 핵심부는 반 
드시 해당 완충기를 포함하는 폐지의 PG_dirty 기발을 설정해야 한다. 

완충기머 리부와 폐 지서 술자는 완충기페지 와 대 응하는 완충기사이 의 련결을 정 의하는 
마당 몇개를 포함한다. 폐지를 완충기폐지로 사용할 때 폐지서술자의 bu 打 ers 마당은 페 
지에 포함된 첫번째 완충기의 완충기머리부를 가리킨다. 그렇지 않으면 buffers 는 
NULL 이다. 또 각 완충기머리부의 bj ± iis _ page 마당은 완충기폐지에 포함된 모든 완충 
기 의 완충기 머 리 부를 포함하는 단순련결목록를 구성한다. 그림 4-20 은 완충기 4개 를 담 
고있는 완충기폐지와 각 완충기에 대응하는 완충기머리부를 보여준다. 


Bdata 



그림 4-20. 완충기 4개를 담고있는 완충기페지와 각 완충기의 완충기머리부 

다음과 같은 례외적인 경우가 있다. 폐지입출력연산과 관련한 폐지의 경우(《폐지입 
출력연산 》 참고) 핵심부가 비동기완충기머리부 몇개를 할당하고 buffers 와 
bj ± iis _ page 마당을 사용하여 이것들을 폐지에 련결할수 있다. 따라서 어떤 페지에 대응 
하는 완충기하드가 완충기개쉬 에 들어있지 않으면서도 이 폐지를 완충기폐지 로 사용할수 
있 다. 


ᄋ 완충기페지할당 


透資邊 @資變©^ 


431 






























Linux 행심부해설서 

핵 심부는 완충기캐쉬 가 해당 블로크에 대한 자료를 담고있지 않은 경우 새로운 완충 
기폐지를 할당한다. 핵심부는 이를 위해 grow_buffers () 함수를 호출한다. 이 함수는 
블로크를 식별하기 위한 변수 3개를 받는다. 

■ 블로크장치번호: 장치의 주번호，부번호 
• 론리적블로크번호:블로크장치 안에서 블로크의 위치 
-블로크크기 

함수는 다음과 갈은 작업을 수행 한다. 

1. 요청한 블로크를 포함하는 블로크장치안에서 자료의 폐지의 편위 index 를 계산한다. 

2. 블로크장치서술자의 주소 bdev 를 엄는다. (《 블로크장치구동프로그람관리》참 

고) 

3. 필요하다면 grow _ dev _ page () 를 호출하여 새로운 완충기페지를 생성한다. 이 
함수는 다음단계를 수행 한다. 

a . 블로크장치 의 address_space 객 체 ( bdev -> bd _ inode -> i _ mapping ) 와 폐 지 편위 
색인을 변수로 find _ or _ create _ page () 를 호출한다. 앞에서 본 《폐지캐쉬처리함수》에 
서 설명한것처럼 find _ or _ create _ page () 는 페지캐쉬에서 페지를 람색하고 필요하다면 
새 로운 페 지를 캐 쉬 에 삽입 한다. 

b . 이제 해당 폐지의 서술자가 정확히 폐지캐쉬에 들어있다. 함수는 서술자의 
buffers 마당을 검사하여 NULL 이면 폐지에 아직 완충기가 들어있지 않은 경우므로 
3 e 단계로 이동한다. 

c . 페지 에 들어있는 완충기의 크기 가 요청 한 블로크의 크기 와 같은지 검 사한다. 같 
다면 폐지서술자의 주소를 반환한다. (패지캐쉬에서 찾은 페지가 유효한 완충기페지 이 
다.) 

d . 그렇지 않으면 try _ to _ free_buffers 0 를 호출하여 페지에 있는 완충기들을 해제 
할수 있는지 검사한다. 함수가 실패하면 다른 처리기가 완충기를 시용하고있는것이므로 
grow _ dev _ page () 함수는 NULL 을 반환한다. (요청한 블로크에 대해 완충기패지를 할 
당할수 없다.) 

e . create_buffers () 함수를 호출하여 폐지안에 요청 한 크기의 블로크를 위 한 완충 
기머리부를 할당한다. 폐지의 첫번째 완충기에 대한 완충기머리부의 주소는 폐지서술자 
의 buffers 마당에 저장하고 모든 완충기머리부는 완충기머리부의 b _ 比 iis_page 마당으 
로 실현한 단순련결원형목록에 삽입한다. 또 완충기머리부의 b_page 마당을 페지서술자 
의 주소로 초기화한다. 

f . 페지서술자의 주소를 반환한다. 

4. grow _ dev _ page () 가 NULL 을 반환했으면 0을 반환한다. (실패) 

5. hash _ page_buffers () 함수를 호출하여 완충기페지의 단순련결원형목록의 모든 
완충기머 리 부의 마당을 초기 화하고 이 것 들을 완충기캐쉬 에 삽입 한다. 


432 


透資邊 @資變©^ 


채 4 장. 71영71 


6. 페지의 잠그기를 풀어준다 . ( find _ or _ create _ page () 에서 페지에 잠그기를 건 

다.) 

7. 페 지의 사용계 수기를 감소시 킨다 (역시 find _ or _ create _ page () 에 서 계 수기 를 증 
가시 킨 다). 

8. 완충기페지의 전체수를 저장하고있는 buffermem _ pages 변수를 증가시킨다. 이 
값은 폐지크기를 단위로 했을 때 완충기캐쉬에 캐쉬된 기억기의 크기이다. 

9. 1을 반환한다(성공). 
o getblkO 함수 

getblkO 함수는 완충기캐쉬 에 대한 주봉사투린이다. 핵심부가 물리적장치의 블로크내 
용을 읽거나 쓰기 전에 반드시 요청한 완충기에 대한 완충기머리부가 이미 완충기캐쉬에 
들어있는지 검사해야 한다. 완충기가 캐쉬에 없다면 핵심부는 반드시 새로운 항목을 캐쉬 
에 생성해야 한다. 이를 위해 핵심부는 장치식별자，블로크번호, 블로크크기를 변수로 
getblkO 를 호출한다. 이 함수는 완충기에 대응하는 완충기머 리부의 주소를 반환한다. 

완충기머리부가 캐쉬에 있다는 사실이 완충기의 자료가 유효하다는것을 의미하지는 
않는다. (례를 들면 아직 디스크에서 완충기를 읽지 않았을수도 있다.) 블로크를 읽는 모 
든 함수는 ge 比) lk () 을 통해서 엄은 완충기가 최신인지 검사해야 한다. 최신이 아니면 
완충기를 사용하기 전에 디스크에서 블로크를 읽어야 한다. 
ge 比) lk () 함수는 다음과 같이 간단하다. 

sturct buffer _ head * getblk ( kdev_t dev , int block , int size ) 

{ 

for (； ；) 

{ 

struct buffer _ head * bh ； 
bh = get _ hash _ table ( dev , block , size ); 
if ( bh ) 
return bh ； 

if (! grow_buffers ( dev , block , size )) 
f ree _ more_memory () : 

} 

} 

이 함수는 먼저 get _ hash _ table () 을 호출하여(《 캐쉬된 완충기머 리부의 하쉬표》 
참고) 요청한 완충기머 리부가 이미 캐쉬 에 있는지 검사한다. 캐쉬 에 있다면 발견한 완충 
기머려부주소를 반환한다. 

요청 한 완충기 머리 부가 캐쉬에 없으면 ge 比) lk () 는 grow_buffefs () 를 호출하여 요청 한 
블로크에 대한 완충기를 포함하는 새로운 완충기폐지의 할당을 시도한다. growj 孔 iffersO 
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가 패지할당을 실패하면 getblkO 는 기억기회수를 시도한다. 그리고 get _ hash _ table () 이 
요청한 완충기를 완충기패쉬에서 찾을 때까지 이 작업을 계속 반복한다. 

0 디 스크에 불결한 완충기기 록하기 

Unix 체계는 불결한 완충기를 블로크 장치에 기록할 때 《 쓰기지연 (deferred 
writing ) 》을 허용한다. 쓰기지연은 체계성능을 매우 향상시킨다. 완충기에 대한 쓰기 
연산 여러번을 해당 디스크블로크에 대해 한번 느리게 물리적으로 갱신하여 만족시킬수 
있다. 더구나 프로쎄스가 일반적으로 쓰기지연때문에 보류되지 않으며 주로 읽기지연때 
문에 보류되므로 쓰기연산은 읽기연산만큼 중요하지 않다. 쓰기지연으로 하여 물리적블 
로크장치는 일반적 으로 쓰기요청보다 훨씬 많은 읽기요청을 처 리한다. 

불결 한 완충기 는 기 능한 마지 막순간 즉 체 계 끄기 시 간까지 주기억 기 에 머 물수도 있 다. 
그렇지만 쓰기지연을 이렇게 극단적으로 추구하면 두가지 주요부족점이 있다. 

• 하드웨어 또는 전원에 문제가 발생하면 RAM 의 내용을 더는 읽을수 없으며 체계 
를 시 작한 시점부터 수행 한 많은 파일변경 내 용을 잃어 버리게 된다. 

• 완충기캐쉬의 크기 즉 완충기캐쉬를 저장할 RAM 이 매우 커야 한다. 최소한 접 
근하는 블로크장치크기정도는 되여야 한다. 

따라서 다음과 갈은 경 우에 불결한 완충기 를 디 스크에 흘리 기 (기 록)한다. 

• 완충기캐쉬가 꽉 찼고 새로운 완충기가 필요할 때 또는 불결한 완충기의 수가 너 
무 커졌을 때. 둘중 한가지 경우가 발생하면 bdflush 핵심부스레드가 동작한다. 

• 완충기가 불결한 상태로 너무 오래 있는 경우. kupdate 핵심부스레드가 주기적 
으로 오래된 완충기를 홀린다. 

■ 블로크장치의 모론 완충기 또는 특정과일의 모든 완충기를 흘러기하도록 처리기가 
요청하는 경우. 처리기는 sync (), fsyncO , fdatasyncO 체계호출을 실행하여 흘리기 
를 요청할수 있 다. 

《 완충기 캐 쉬》에 서 설 명 한것 처 럼 완충기 페 지 의 일부 완충기 가 불결 한면 완충기 페 지 
는 불결하다. ( PG_DIRTY 기발이 설정된다.) 핵심부가 완충기패지의 모든 불결한 완 
충기를 디스크에 흘리고 나면 즉시 폐지의 PG_DIRTY 기발을 초기화한다. 

O bdflush 핵심부스레드 

bdflush 핵심부스레드 ( kflushd 라고도 한다)는 체계초기화과정에서 생성된다. 이 
스레드는 bdflush () 함수를 호출해서 불결한 완충기의 일부를 선택하여 완충기에 대응 
하는 블로크의 변경내용을 물리적 블로크장치에 기록하도록 한다. 

bdflush 동작은 몇개의 체계 파라메터로 조종한다. 이것들은 bdf _ prm 표의 b_un 
마당에 저장되며 / proc / sys / vm/bdflush 파일이나 bdflush 0 체계호출을 통해 접근 
할수 있 다. 각 파라메터 는 기 본값이 있 으며 bdflush _ min 과 bdflush _ max 표에 저 장된 
최 소, 최 대 값사이 에서 변경 할수 있다. 파라메터 는 표 4-11 과 같다. 
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표 4-11. _ 완충7 [카件1류닝 ( tunning ) 立任때【터 


파라메 터 

기본값 

최소값 

최대값 

설 명 

nfract 

40 

0 

100 

bdflush 를 깨우게 하는 불결한 완충기의 비률 

nfract_sync 

60 

0 

100 

bdflush 를 차단(동기적으로 실행)방식으로 깨 

우게 하는 불결한 완충기의 비률 

age_buffer 

3000 

100 

600000 

불결한 완충기를 디스크에 기록할 때까지의 시 
간넘침 시간(릭 크단위) 

interval 

500 

0 

1000000 

kupdata 가 활성 화하는 시 간간격 (릭 크단위 ) 


릭크단위는 보통 10 ms 이 다. 

핵심부스레드는 다음과 같은 몇 가지 특별한 경우에 깨 여 난다. 

• balance_dirty() 함수에서 BUF_DIRTY 와 BUF_LOCKED 목록에 들어 있는 완 
충기페지의 수가 다음 식의 림계값을 넘었음을 확인했을 때 

p * bdf_prm. b_un. nfract_sync / 100 

여기서 p 는 체계에 있는 완충기패지로 사용될수 있는 페지의 수이다. (기본적으로 
이 값은 DMA 와 일반기 억기지 역 Uone ) 에 있는 모든 페지의 수이 다.) 실제 로 이 계산은 
balance _ dirty _ state () 함수에서 이루어지며 이 함수는 불결한 또는 잠근완충기가 
nfract ： 림계값보다 작으면 -1, nfract 와 nfract_sync 사이 이면 0, nfract _ sync 보다 
크면 1을 반환한다. balance _ dirty () 함수는 보통 완충기가 불결한것으로 표시되면 호 
출되며 이 함수는 완충기머리부를 BUF_DIRTY 목록으로 옮긴다. 

• try_to_free_buffers () 함수가 일부완충기 페 지 의 완충기 머 리 부를 해 제 하는 작업 
을 실패했을 때 (《완충기패지할당》참고) 

• grow _ buffers () 함수가 새로운 완충기페지 할당에 실패했을 때 또는 
create _ buffers () 함수가 새로운 완충기머리부 할당에 실패했을 때 (《완충기폐지할당》 
참고) 

• 사용자가 콘솔의 특정한 건조합을 눌렀을 때. (보통 ALT+sysRq+U 와 
ALT_sysRq+s) 이 건조합은 Linux 핵심부에서 《Magic SysRq Key 》 항목을 선택하 
여 콤파일했을 때에만 사용할수 있으며 Linux 핵심부해커가 일부핵심부동작을 직접 조 
종할수 있도록 한다. 

bdflush 를 깨우기 위 해 핵심부는 wakeup_bdflush () 함수를 호출한다. 이 함수 
는 단순히 다음을 실행하여 bdflush_wait 작업대기 렬에서 잠들어있는 처 리기를 깨운다. 

wake_up_interruptible (&bdflush_wait) ; 

이 대기렬에는 bdflush 처리기 하나만 있다. 

bdflushO 함수의 핵심은 다음과 같은 무한순환이다. 
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for (；；){ 

if (emergenoy_sync_scheduled) /* Magic syqRq Key 지원을 포함하여 */ 
do_emergency_sync( ); /* 핵심부를 콤파일 했을 때 */ 
spin_l ock ( & 1 ru_list_l ock) : 

if ( ! write_some_buffers (0) | | balance_dirty_state ( ) < 0) { 

wait_for_some_buffers (0); 

interrup 出 ble_sleep_on (&bdflush_wait) : 


Magic SysRq Key 항목을 선택하여 를파일한 Linux 핵심부의 경우 bdflushO 는 
사용자가 긴급동기화를 요청했는지 검사하고 요청이 있었으면 do _ emergency _ sync () 
를 호출하여 모든 블로크장치에 대해 fsync _ dev () 를 호출하여 모든 불결한 완충기를 
흘리기 한다. (뒤 에 나오는 《 sync (), fsyncO 와 flatasync () 체 계 호출》참고) 

다음으로 이 함수는 lru _ list_lock 스핀 잠그기를 얻은 다음 write _ some_buffers () 
함수를 호출하여 잠그기가 걸리지 않은 불결한 완충기 32개까지에 대해 블로크입출력쓰 
기연산의 활성화를 시도한다. 쓰기 연산이 활성화되면 write _ some_bu 打 ers 0 는 
lru _ list_lock 스핀잠그기를 해제하고 잠그기되지 않은 불결한 완충기를 찾은 수가 32 
개 미만인 경우 0을 반환하고 그렇지 않으면 부수값을 반환한다. 

write _ some_buffers () 가 흘리기 할 완충기 32개를 찾지 못했거나 불결한 혹은 잠 
그기걸린 완충기의 수가 bdflush 의 변수 nfract 의 비률미만으로 내려가면 bdflush 핵 
심 부스레드는 잠든다. 이를 위 해 먼저 wait _ for _ some_buffers 0 함수를 호출하여 
BUF_LOCKED 목록의 모든 입 출력자료전송이 끌날 때 까지 잠든다. 이 시 간동안 핵 심 
부스레드는 핵심부가 wakeup _ bdflush 0 함수를 호출할지라도 깨여 나지 않는다. 자료 
전송이 끝나면 bdflushO 함수는 bdf lush_wait 대기 렬에 대해 

interrup 仕 ble _ sleep _ on 0 을 호출하여 다음에 wakeup _ bdflush 0 가 다시 호출될 때 
까지 잠든다. 

o kupdate 핵심부스레드 

불결한 완충기가 너무 많을 때 또는 완충기가 더 필요한데 사용할수 있는 기억기가 
부족할 때 bdflush 핵심부스레드가 활성화되므로 어떤 불결한 완충기는 기억기에 필요 
이상으로 오래 머문 다음 디스크에 흘리기된다. 따라서 너무 오래된 불결한 완충기를 흘 
리기 위해 kupdate 핵심부스레드를 도입하였다. 

표 4-11 에서 살펴본것처 럼 age_buffer 는 kupdate 가 완충기를 디스크에 기록할 때 
까지의 시간(보통 30 s ) 이고 bdf_pm 표의 interval 마당은 kupdate 핵심부스레드를 활 
성화하는 시간간격을 릭크단위로 나타낸 값(보통 5 s ) 이다. 이 마당이 0이면 SIGCONT 
신호를 받을 때까지 핵심부스레드가 중단된다. 
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핵심부가 완충기의 내용을 변경했을 때 완충기에 대응하는 완충기머리부의 
b_flushtime 마당을 후에 디 스크에 완충기를 흘리기 할 시 간 (jiffies 단위)으로 설정 한다. 
kupdate 핵심부스레드는 b_flush 社 me 마당값이 jiffies 의 현재값보다 작은 불결한 완충 
기만 선택하여 흘리기한다. 

kupdate 핵심부스레드는 kupdate () 함수를 호출하며 이 함수는 wb_kupdate() 함 
수를 호출하는데 다음과 같은 순환을 실행 한다. 

while (nr_to_write > 0) { 

wbc. encountered_congestion = 0 ； 
wbc.nr_to_write = MAX_WRITEBACK_PAGES ； 
w ritebackjnodes (&wbc) : 
if (wbc. nr_to_write > 0) { 

if (wbc. encountered_congestion) 

blk_congestion_wait (WRITE, HZ/10) : 

else 

break ； 

} 

nr_to_write -= MAX_WRITEBACK_PAGES - wbc. nr_to_write ； 

} 

먼저 핵 심부스레 드는 BUF_LOCKED 목록의 모든 완충기 에 대 한 입 출력자료전송이 
끌날 때까지 자신을 연기한다. 그러고 bdf.prm. b_un. interval 이 0 이 아니면 스레드 
는 지정한 릭크만큼 잠든다 .( 《 동적시간응용》 참고). 그렇지 않으면 스레드는 
SIGCONT 신호를 받을 때까지 자신을 중단한다. (《신호의 역할》참고) 

kupdateO 함수의 핵심은 sync _ old _ buffers 0 함수이다. 이 함수가 실행하는 연산 
은 Unix 에서 사용하는 표준 파일체계의 경우 매우 간단하다. 함수가 수행하는 일은 불 
결한 완충기를 디스크에 기록하는것이 전부이다. 그렇지만 표준파일체계가 아닌 경우 초 
블로크나 i 마디정보를 복잠한 방식으로 저장하므로 복잡한 문제가 발생할수 있다. 

sync _ old_buffefs () 는 다음과 같은 단계를 실행 한다. 

1. 대 형 (big) 핵 심 부잠그기 를 획 득한다. 

2, ,.sync_unlocked_inodes() 를 호출하여 탑재된 모든 파일체계의 초블로크를 람 

색하고 각 초블로크에 대해 초블로크객체의 s_dirty 마당이 가리 키는 불결한 색 인마디들 
을 람색한다. 이 함수는 각 색인마디에 대응하는 파일의 기억기배치에 속한 불결한 폐지 
들을 흘리기한다 .( 《 불결한 기억기배치폐지를 디스크에 흘러기》 참고) 그리고 

writejnode 초블로크 연산이 정의되 여 있다면 호출한다. (write_inode 메쏘드는 모든 색 
인마디자료를 디스크블로크 하나에 저장하지 않는 비 Unix 계렬 파일체계, 례를 들면 
MS_DOS 파일 체 계 에 서 만 정 의 되 여 있 다. ) 
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3. sync_supers 0 를 호출한다. 이 함수는 모든 초블로크자료를 디스크블로크 하나 
에 저 장하지 않는 파일 체 계(례 를 들면 HFS) 에 서 사용하는 초블로크를 관리 한다. 이 함 
수는 현재 탑재 된 모든 파일 체 계 의 초블로크를 탐색 하여 (《 파일 체 계 탑재》참고) 각 초 
블로크에 대 해 write_super 초블로크연산이 정의되여 있다면 실행 한다 . ( 《 초블로크객 
체》참고) Unix 계렬 파일체계에서는 write_super 메 쏘드를 정의하지 않는다. 

4. 큰 핵 심부잠그기를 해제한다. 

5. 다음으로 구성된 순환을 시작한다. 

a. lru_list_lock 스핀잠그기를 획득한다. 

b. BUF_DIRTY 목록의 첫번째 완충기머리부를 가러키는 지시자 bh 를 얻는다. 

c. 지시자가 NULL 이거나 완충기머리부의 마당 bflushtlme 값이 jiffies 보다 크면 
(오래되지 않은 완충기) lru_list_lock 스핀잠그기 를 해제 하고 완료한다. 

d. write_some_buffers () 를 호출하여 BUF_DIRTY 목록의 잠그기 되지 않은 불결 
한 완충기 32 개까지 에 대 해 블로크입 출력 쓰기 활성 화를 시도한다. 쓰기 활성 화를 실행하 
면 write_some_buffers () 는 lru_list_lock 스핀잠그기를 해제하고 잠그기가 걸리지 않 
은 불결한 완충기를 찾은 수가 32 개 미만이면 0 을 반환하며 그렇지 않으면 부수값을 반 
환한다. 

e. write_some_bu:ffers () 가 디스크에 흘리기 한 잠그기 하지 않은 완충기 수가 32 이 
면 5a 단계로 이동한다. 그렇지 않으면 실행을 완료한다. 

° sync(), fsyncO 와 fdatasyncO 체계 호출 

사용자응용프로그람은 불결한 완충기를 디스크에 흘러기 위해 다음 3 가지 체계호출 
을 사용할수 있다. 
sync () 

보통 체계끄기직전에 호출한다. 모든 불결한 완충기를 디스크에 흘린다. 
fsyncO 

처 리기가 현재 열려있는 특정한 파일에 속한 모든 블로크를 디스크에 흘러도록 한다. 
fdatasync 0 

fdatasyncO 와 매우 류사하지만 파일의 색 인마디 블로크를 휼리지 않는다. 
sync 0 체계호출의 핵심은 fsync_dev 0 함수로 다음과 같은 작업을 수행한다. 

1. sync_buffers 0 를 호출하여 다음 코드를 실행 한다. 
do { 

spin_lock (& 1 ru_list_lock) : 

} while (write_some_buffers(0)) ； 
run_task_queue (&tq_disk) : 

이 함수는 잠그기걸리지 않은 불결한 완충기를 32 개 찾을 때까지 
write_some_buffers 0 함수를 호출한다. 그리고 블로크장치구동프로그람이 실제 입출력 
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자료전송을 시 작하도록 한다. 

2. 큰 핵심부잠그기를 획득한다. 

3. sync _ inodes 0를 호출한다. 이 함수는 앞서 설명한 sync _ unlocked _ inodes 와 
아주 류사하다. 

4. sync _ supers () 를 호출하여 불결 한 초블로크를 디스크에 기록한다. 필요하다면 
write_super 메 쏘드를 호출한다. 

5. 큰 핵심부잠그기를 해제한다. 

6. sync _ buffers () 를 다시 한번 호출한다. 이번에는 잠그지 않은 모든 완충기의 
전송이 끝날 때까지 기 다린다. 

fsyncO 체계호출은 핵심부가 fd 전 파일서술자변수가 지정하는 파일에 속한 모든 불 
결한 완충기를 디스크에 기록하게 한다. (필요하다면 색인마디를 소유하고있는 완충기를 
포함한다.) 체계봉사루린은 파일객체의 주소를 얻어서 파일객체의 fsync 메쏘드를 호출 
한다. 일반적으로 이 메 쏘드는 단순히 fsync _ inode _ buffers 0 함수를 호출한다. 이 함 
수는 색 인마디객체의 불결한 완충기목록 두개를 탐색하여(《캐쉬완충기에 대한 완충기머 
리부목록》참고) 목록의 각 입구점에 대해 ll _ rw _ block () 를 호출한다. 이 함수는 잠 
근 완충기에 대해 wait _ on _ buffer () 를 호출하여 파일의 모든 불결한 완충기가 디스크 
에 기록될 때까지 함수를 호출한 처리기를 연기한다. 그리고 fsyncO 체계호출의 봉사루 
린은 파일의 기억기배치에 속한 불결한 폐지가 있다면 이것들을 홀린다. (《불결한 기억 
기배치폐지를 디스크에 흘리기》참고) 

MatasyncO 체계호출은 fsyncO 와 매우 류사하지만 색인마디정보를 포함한 완충기 
는 기록하지 않고 파일자료를 포함한 완충기만 기록한다. Linux 2. 6은 fdatasyncO 를 
위한 별도의 파일메 쏘드를 제공하지 않으며 이 체계호출은 fsync 메 쏘드를 사용한다. 따 
라서 fdatasyncO 는 fsyncO 와 동일하다. 


제 4 절. 교환 

앞에서 디스크캐쉬를 살펴보았다. 디스크캐쉬는 RAM 을 디스크의 확장으로 사용하 
며 디스크접근회수를 줄여서 체계의 응답시간을 향상하는것이 목적이다. 이 절에서 소개 
하는 교환 ( swapping ) 기법의 목적은 정반대 이다. 핵심부는 디스크공간의 일부를 RAM 
의 확장으로 사용한다. 프로그람작성자는 교환의 존재를 알지 못한다. 교환령역을 설정 
하여 활성화하면 프로쎄스는 자신이 지정하는 주소들이 모두 물리적인 기억기를 사용하 
고있다고 가정하고 동작하며 핵심부가 폐지의 일부를 디스크에 저장하였다가 필요할 때 
다시 가져온다는 사실을 알지 못한다. 디스크캐쉬는 여유 RAM 을 사용하여 체계성능을 
향상하는 반면에 교환은 기억기용량을 확장하기 위해 기억기접근속도를 떨군다. 따라서 
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디스크캐쉬는 좋은것이지만 교환은 여유 RAM 이 너무 모자랄 때 사용하는 최후의 수단 
이라고 생각하는것이 좋다. 이 절은《교환이란 무엇인가》에서 교환을 정의하는것부터 
시 작한다. 교환령 역절에서는 교환을 실현하기 위 한 주요자료구조를 설명한다. 그리 고 교 
환캐쉬 와 RAM 과 교환령역사이에서 폐지 를 전송하는 저수준함수를 설명 한다. 다음 두 
부분은 특히 중요하다. 《폐지를 교환하여 내보내기》에서는 디스크에 교환하여 내보낼 
폐지를 선택하는 기법을 설명하고《폐지교환하여 끌여넣기》에서는 필요할 때 교환령역 
에 저장된 폐지를 RALM 으로 다시 읽어들이는 기 법을 설명한다. 교환캐쉬를 포함하여 
여러 종류의 디스크캐쉬가 있기때문에 이 개쉬들이 사용가능한 모든 RAM 을 사용하게 
되여 여유 RAM 이 없게 된다. 이것을 해결하기 위해 핵심부가 어떻게 여유 RAM 용량을 
감시하고 필요할 때 캐쉬 또는 프로쎄스주소공간에서 폐지를 해제하여 여유기억기를 확 
보하는지 살펴본다. 

1. 교환이 란 무엇인가 

교환의 목적은 다음 두가지 이 다. 

• 프로쎄스가 실제로 사용할수 있는 주소공간확장 

• 프로쎄스를 적재할 동적 RAM 공간(핵심부코드와 정적자료구조를 초기화하고 남은 
RAM 공간)의 확장 

교환이 사용자에게 어떤 도움을 주는지 몇가지 례를 들어보자. 가장 단순한 례는 프 
로그람의 자료구조가 실제 RAM 크기 보다 더 많은 공간을 차지하는 경 우이 다. 교환령 역 
은 문제 없 이 이 프로그람을 적재하여 실 행할수 있게 해 춘다. 좀 더 특이한 실례 로서 는 
기억기를 많이 요구하는 큰 응용프로그람 몇개를 동시에 실행하도록 사용자가 여러 명령 
을 내 린 경우를 들수 있다. 교환령역 이 없으면 체계는 새 로운 응용프로그람 실행 요청을 
거 부할수도 있 다. 반면에 교환령역 은 이 미 실 행 중인 프로쎄 스를 제 거 하지 않고 그중 일 
부기억 기 만 해 제하여 핵 심 부가 새 로운 응용프로그람을 실 행 할수 있게 한다. 

우의 두 실례에서 교환의 우점과 함께 부족점도 알수 있다. 가상적으로는 RAM 이 
더 있는것처럼 보이지만 성능면에서는 실제 RAM 을 따라갈수 없다. 프로쎄스가 나간 
페지에 접근하는데 걸리는 시간은 RAM 에 비해 수백배나 느리다. 간단히 말해서 성능 
이 중요하다면 교환은 최후의 수단이다. 늘어나는 처 리요구에 대응하는 가장 좋은 해결 
방법은 여전히 RAM 소편을 더 추가하는것이다. 그러나 체계의 전체적인 측면에서 교환 
이 효과적인 경우도 있다. 오래동안 실행되는 프로쎄스는 보통 자신이 얻은 폐지틀의 절 
반정도에만 접근한다. 사용가능한 RAM 이 있을 때에도 사용되지 않은 패지를 교환하여 
내보내고 해당 RAM 을 디스크캐쉬로 사용하는것이 전체적인 체계성능을 높이는 경우가 
있 다. 

교환은 고전적 인 기법 이다. 초기 Unix 체계핵 심부에서는 여유기 억기용량을 계속해 
서 감시 하다가 여유 기 억기 가 고정된 림계값보다 적 어지면 교환하여 내 보내 기 를 실행하 
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였 다. 이 때 프로쎄 스의 전체 주소공간을 디 스크에 복사하였 다. 반대 로 순서 짜기알고리 듬 
이 교환하여 내보낸 프로쎄스를 실행하도록 선택하면 프로쎄스전체를 디스크에서 교환하 
여 넣었다. 

Linux 를 비롯한 최신 Unix 핵 심부에서는 이 런 접근방법을 사용하지 않는다. 가장 
큰 리유는 교환하여 내보낸 프로쎄스전체를 교환하여 넣으려면 프로쎄스의 문맥전환비용 
이 너무 높아지기때문이다. 이런 교환작업의 부담을 보상하려면 순서짜기알고리듬이 매 
우 복잡해진다. 즉 RAM 에 있는 프로쎄스를 선취하면서도 교환하여 내보낸 프로쎄스를 
완전히 무시해서는 안된다. 

Linux 의 교환은 프로쎄 스주소공간 전체 가 아닌 각 폐 지단위 를 대 상으로 이 루어 진 
다. CPU 에 포함된 하드웨어페지화장치에 의해 이렇게 작은 단위를 대상으로 교환을 수 
행 할수 있 다. 《 정 규페 지 화》를 보면 각 페 지 표 입 구점 ( PTE ) 에 는 present 기 발이 있 다. 
핵심부는 이 기발을 활용하여 프로쎄스주소공간의 폐지가 교환하여 내보냈다는 사실을 
하드웨어에 알릴수 있다. Linux 는 이 기발외에 페지표입구점의 남은 비트를 활용하여 
교환하여 내보낸 폐지가 디스크에 저장된 위치를 저장한다. 

《 폐 지 오유례 외 ( exception ) 》가 발생 하면 례 외 조종기 가 RAM 에 해 당 페 지 가 없 다는 
사실을 알게되며 디스크에서 해당 폐지를 교환하여 넣는 함수를 호출한다. 

교환에서 복잡한 부분은 주로 교환하여 내보낸 부분이며 특히 4가지 주요문제를 고 
려해 야 한다. 

. 어 떤 종류의 페 지 를 교환하여 내 보낼것 인가. 

. 교환령 역안에서 폐지를 어떻 게 분산할것 인가. 

. 교환하여 내보낼 폐지를 어떻 게 선택할것 인가. 

.언제 폐지를 교환하여 내보낼것인가. 

Linux 가 이 4가지 문제를 어떻게 처리하는지 간단히 살펴본 다음 교환과 관련있는 
주요 자료구조와 함수를 보도록 한다. 

1) 교환하여 내보낼 폐지종류 

교환은 다음 종류의 폐지에만 적용할수 있다. 

■ 프로쎄스의 닉명 기 억기령역에 속한 폐지 (례를 들면 사용자방식탄창) 

. 프로쎄 스의 비 공개 ( private ) 기 억 기 배 치 에 속한 변경 된 페 지 

■ IPC 공유기 억 기 령 역 에 속한 폐 지 ( 《 IPC 공유기 억 기》참고) 

(교환하여 내보낼 대상이 아닌)나머지 종류의 폐지는 핵심부에서 사용하거나 디스크 
상에 있는 파일을 배치할 때 사용하는 폐지이다. 핵심부가 사용하는 폐지는 교환이 무시 
한다. 이렇게 해야 핵심부설계를 단순하게 할수 있기때문이다. 파일배치에 사용하는 페 
지의 경우에 가장 좋은 교환령역은 해당 파일 그자체 이다. 


2) 교환령 역안의 폐 지 분산방법 
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각 교환령역은 슬로트로 구성되며 각 슬로트는 한 패지를 저장한다. 교환하여 내보내 
는 경우 핵심부는 후에 교환령역에 접근할 때 디스크탐색시간을 최소화하기 위해 련속하 
는 슬로트에 폐지를 저장하려 한다. 이것은 효률적인 교환알고리듬에 중요한 요소이다. 

교환령역을 두개 이상 사용하는 경우 문제가 더 복잡해진다. 빠른 교환령역 즉 빠른 
디스크에 저장된 교환령역이 높은 우선순위를 가진다. 여유슬로트를 찾을 때 우선순위가 
가장 높은 교환령역부터 탐색을 시작한다. 우선순위가 같은 교환령역이 여러개 있으면 그 
중 하나에 부하가 집중되는것을 막기 위해 번갈아 가면서 선택한다. 우선순위가 가장 높 
은 교환령역에 여유슬로트가 없으면 그 다음 우선순위의 교환령역에서 탐색을 계속한다. 

3) 교환하여 내보낼 폐지선택방법 

교환하여 내 보낼 폐지를 선택할 때 특정 기준에 따라 페지 에 순서를 매길수 있으면 
좋을것이다. 그래서 여러 조작체계핵심부에서 몇가지 LRU (Least Recently Used) 교 
체알고리듬을 제 안하고 사용해 왔다. 핵심사상은 RAM 의 각 폐지 에 폐지의 나이 (age), 
즉 해당 폐지에 마지막으로 접근한 이후 경과한 시간을 저장해두는것이다. 그리고 프로 
쎄스에서 가장 오래된 페지를 교환하여 내보낸다. 

어 떤 름퓨터 기반에 서 는 LRU 알고리 듬을 위 해 복잡한 지 원을 제 공한다. 례 를 들어 
어떤 주프레임의 CPU 는 각 페지표입구점의 폐지나 이를 나타내는 계수기값을 자동으로 
갱신한다. 그러나 80x86 처리기는 그런 하드웨어기능을 제공하지 않으므로 Linux 는 진 
정한 LRU 알고리듬을 사용할수 없다. 대 신 Linux 에서는 폐지 에 접근할 때마다 하드웨 
어가 자동으로 설정하는 각 폐지표입구점의 Accessed 기발을 활용하여 교환하여 내보낼 
후보를 선택한다. 후에 보지만 패지를 자주 교환하여 넣기/내보내지 않도록 약간 단순 
한 방법을 사용하여 이 기발을 설정하거나 지운다. 

폐지를 교환하여 내보낼 때 핵심부가 사용할수 있는 기 억기 가 위험할 정도로 모자랄 때 
효과적이다. 심하게 기억기가 모자라는 경우에 대비한 긴급수단으로 핵심부는 여유페지 
틀 몇개를 예약해둔다. 이것들은 가장 핵심적인 함수들만 사용할수 있다. 이 여유폐지는 
체계파괴를 막기 위한 핵심적인 기능이다. 여유폐지가 없다면 자원을 해제하기 위해 호 
출한 핵심부루린이 작업을 정상적으로 완료하는데 필요한 기억기령역을 얻지 못하는 경 
우가 발생하기때문이다. Linux 는 여유폐지틀을 보호하기 위하여 다음과 같은 경우에 
교환하여 내보내기를 실행한다. 

■ 여유페지틀의 수가 미리 정의된 림계값보다 작아질 때 마다 주기적으로 활성화되는 
kswapd 핵 심 부스레 드에 의 해 실행 

■ 여유페지틀의 수가 미리 정의된 림계보다 작아져 형제체계(《형제체계 알고리듬》참 
고)에 대한 기억기요청을 만족하지 못하는 경우 


442 


2. 교환령역 


透資© @資變©^ 


채 4 장. 71엄71 


교환령역 (swap area) 은 기억기로부터 교환하여 내보낸 폐지를 저장하는 공간이다. 
교환령역은 독자적인 디스크구획일수도 있고 구획에 포함된 한개의 파일일수도 있다. 
여 러 교환령역 을 정의 할수 있으며 교환령역의 최 대 개수는 MAX_SWAPFILES 마크로 
(보통 32 로설정 )로 지정한다. 체 계 관리 자는 여 러 교환령역 을 사용하여 교환공간을 여 
러 디스크에 분산해서 하드웨 어 가 이것들에 대 해 동시 에 병 렬적으로 작업할수 있게 한다. 

또한 체 계를 재시동하지 않고 실행시 간에 교환령역을 늘일수 있게 한다. 

각 교환령역은 련속된 페지슬로트들로 이루어진다. 교환하여 내보낸 폐지를 저장하기 위 
해 4096B 블로크를 사용한다. 교환령역 의 첫 번째 페 지 슬로트는 교환령역 에 대 한 정 보를 
저 장하는데 사용한다. 첫 번째 슬로트의 자료구조는 info 와 magic 두 구조체 가 들어있는 
swap_header 이다. magic 구조체는 디스크의 특정한 부분이 교환령역임을 나타내는 문 
자렬을 제 공한다. 이 구조체 는 magic, magic 이 라는 마당 하나로 이 루어 져있으며 문자 
10 개로 이루어진 특정한 문자렬을 저장한다. magic 구조체의 핵심적인 역할은 핵심부가 
어떤 파일이나 구획이 교환령역임을 정확히 알수 있도록 하는것이다. 이 문자렬의 실제 
값은 교환알고리듬판본에 따라 다르며 판본 1 인 경우 SWAP_SPACE, 판본 2 인 경우 
SWAPSPACE2 이다. 이 마당의 위치는 언제나 첫번째 폐지슬로트의 맨 끝부분이다. 
info 구조체의 마당은 다음과 같다. 
info, bootbits 

교환알고리듬에서 사용하지 않는다. 이 마당은 교환령역의 처음 1024B 이며 구획 자 
료，디스크표식 등의 정보를 저장한다. 
info, version 
교환알고리듬의 판본 
info. last_page 
사용가능한 마지 막폐 지슬로트 
infonr_badpages 
결함이 있는 폐지슬로트의 수 
info, padding [125] 

메꾸기바이트 
info, badpages [1] 

결함이 있는 폐지슬로트의 위치를 나타내는 637 개까지의 수 

교환령역의 자료는 체 계가 켜져 있는 동안에만 유효하다. 체계가 중지될 때 모든 프 
로쎄 스를 제 거 하며 프로쎄 스가 교환령역 에 저 장했 던 자료도 삭제 된다. 이 런 리 유로 교환 
령 역 이 담고있는 조종정 보는 교환령 역형 과 결 함이 있는 폐지 슬로트목록정 보이 다. 조종정 
보는 4kB 페지하나에 쉽게 저장할수 있다. 

일반적으로 체계관리지는 Linux 체계의 다른 구획을 생성할 때 교환구획도 같이 생 
성하고 /sbin/mkswap 명령을 사용하여 이 디스크령역을 새로운 교환령역으로 설정한 
다. 이 명령은 앞서 설명한것처럼 첫번째 폐지슬로트의 마당을 설정한다. 디스크가 결함 
이 있는 블로크를 포함하고있을수 있으므로 이 프로그람은 결함이 있는 블로크를 찾기 
위해 다른 폐지의 모든 슬로트를 검사한다. 그러나 /sbin/mkswap 명령은 교환령역을 
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활성화하지 않은채로 남겨둔다. 각 교환령역은 체계를 시동하는 과정에서 스크립트파일 
로 활성화하거나 체계가 동작하는중에 동적으로 활성화할수 있다. 초기화한 교환령역은 
실제 로 체 계 RAM 의 확장령 역 을 나타내 야만 활성 화한 상태 로 간주된다. (뒤 에 나오는 
《 교환령 역활성 화와 비 활성 화》참고) 

1) 교환령역서술자 

활성화된 각 교환령 역은 자신의 swap _ info _ stmct 서술자를 기억기에 저장한다. 서 
술자의 마당은 표 4-12 와 같다. 


M 4-12. 교환 S 역서술자□(당 


형 

마 당 

설 명 

unsigned int 

flags 

교환령역기발 

kdev t 

swap device 

교환디 스크구획 의 장치 번 호 

spinlock t 

sdev lock 

교환령 역 서 술자스핀잠그기 

struct dentry * 

swap file 

파일 또는 장치파일의 덴트리 

struct vfsmount * 

swap vfsmnt 

파일 또는 장치파일의 탑재된 파일체계서술자 

unsigned short * 

swap_map 

각 교환령역페지의 슬로트마다 하나씩 할당되는 
계수기배렬에 대한 지적자 

unsigned int 

lowest bit 

여유슬로트를 찾을 때 살펴볼 처음패지슬로트 

unsigned int 

highest bit 

여유슬로트를 찾을 때 살펴볼 마지 막폐지슬로트 

unsigned int 

cluster next 

여유슬로트를 찾을 때 살펴볼 다음폐지슬로트 

unsigned int 

cluster_nr 

여유폐지슬로트할당수. 이 수를 넘으면 처음부터 
다시 시작한다. 

Int 

prio 

교환령역우선순위 

Int 

pages 

사용가능한 폐지슬로트의 수 

unsigned long 

max 

교환령역 크기 (폐지 단위) 

Int 

next 

다음교환령 역서술자의 지적 자 


flags 마당에는 서 로 겹치는 두 보조마당이 있다. 

SWP_USED 

활성화한 교환령역 이면 1, 활성화하지 않은 교환령역 이면 0이 다. 

SWP — WR 1 TEOK 

교환령역 에 쓰기 가 가능하면 이 두 비 트마당을 3으로 설 정 하고 그렇 지 않으면 0으 
로 설정 한다. 이 마당의 아래비트는 SWPJJSED 비트로 사용하는 비 트와 겹 치기때 문에 
교환령역을 활성화했을 때 에만 쓰기가 가능하다. 핵심부는 활성화 또는 비활성화도중에 
는 교환령역 에 쓰기 를 허 용하지 않는다. 
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swap _ map 마당은 각 교환령역의 폐지슬로트에 대한 계수기배렬을 가리킨다. 계수 
기 가 0이 면 해 당 페 지 슬로트는 비 여있 다. 계 수기 가 정 수면 페 지 슬로트는 교환하여 내 보 
낸 폐지 로 채워져있다. (정수값의 정확한 의미는 《 교환캐쉬》에서 설명한다.) 계 수기값이 
SWAP _ MAP _ MAX (값은 32 767) 이면 패지 슬로트에 저 장된 폐지 는 《 영구적 
( permanent ) 》이며, 슬로트에서 제거할수 없다. 계수기값이 SWAP _ MAP _ BAD (값 
은 32 768) 이 면 폐 지 슬로트에 결 함이 있는것 이 므로 사용할수 없 다. 

prio 마당은 교환 보조체계가 각 교환령역을 사용하는 우선순위를 나타내는 부호있는 
정수이다. 고속의 디스크에 있는 교환령역은 먼저 사용되도록 우선순위가 높아야 한다. 
우선순위가 높은 교환령역을 모두 사용하면 교환 알고리듬은 낮은 수준의 교환령 역을 사 
용한다. 우선순위가 같은 교환령역의 경우 교환하여 내보낸 폐지를 분산하도록 번갈아 
가면서 선택한다. 《교환령역 활성화와 비활성화》에서 보지만 우선순위할당은 교환령역 
을 활성화할 때 이루어진다. sdev _ lock 마당은 SMP 체계에서 서술자에 동시에 접근하 
는것 을 방지 하기 위 한 스핀 잠그기 이 다. 

swapjnfo 배럴은 교환령역서술자 MAX _ SWAPFILES 개를 포함한다. 물론 이것들 
을 모두 사용하지는 않으며 SWP _ USED 기발을 설정한 서술자만 사용한다. 그림 4-21 
은 swap _ info 배렬과 교환령역 그리고 여기에 대응하는 계수기배렬을 보여준다. 



그림 4-21. 교환령역의 자료구조 

nr _ swapfiles 는 사용된 교환령역서술자를 포함한적 이 있는 마지막 배렬 항목의 색 인 
값을 저장한다. 이름이 나타내는것과 달리 이 변수는 활성상태 인 교환령역의 수를 저장 
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하지 않는다. 활성상태인 교환령역의 서술자는 우선순위에 따라 정렬된 목록에 들어간다. 
이 목록은 교환령역서술자의 next 마당으로 실현되며 이 마당에는 다음 서술자의 
swap _ info 배렬 에서의 색인값을 저장한다. 지금까지 next 라는 이름은 주로 지적 자를 나 
타냈는데 여기서는 색인값으로 사용한다. 

swap _ list 변수는 swap _ list _ t 형 이 고 다음과 같은 마당을 포함한다. 
head 

첫 번째 목록요소가 swapjnfo 배 렬 에 서 위 치 한 색 인값. 
next 

다음 페지를 교환하여 내보내기 위해 사용할 교환령역의 서술자가 swapjnfo 배렬 
에서 위치한 색인값. 

이 마당은 여유슬로트가 있는 가장 높은 우선순위의 교환령역중에서 원형 
( round _ robin , 돌아가면서 하나씩 선택하는 간단한 알고리듬)알고리듬을 실현한다. 

swaplock 스핀잠그기는 다중처리기체계에서 목록에 동시에 접근하는것을 방지하기 
위 한것 이 다. 교환령 역 서 술자의 max 마당은 교환령 역 크기 를 폐 지단위 로 저 장하는 반면에 
pages 마당은 사용가능한 폐지슬로트의 수를 저장한다. pages 는 첫번째 페지슬로트와 
결함이 있는 패지슬로트를 고려하지 않기때문에 이 수자는 서로 다르다. 

끝으로 nr _ swap _ pages 변수는 모든 활성화된 교환령역중에서 사용가능한 폐지슬로 
트(결함이 없는 여유페지슬로트)의 수를 저장하고 total _ swap _ pages 는 결함이 없는 페 
지슬로트의 수를 저장한다. 

2) 교환하여 내보낸 패지식별자 

교환하여 내보낸 패지는 swapjnfo 배럴에서 교환령역의 색인값과 해당 교환령역안 
에서 폐 지 슬로트의 색 인값을 통해 아주 쉽 게 식 별 할수 있다. 교환령 역의 첫 번째 폐 지 (색 
인값 0) 는 앞서 설명 한 swap _ header 를 위 해 예 약되 여있으므로 사용할수 있는 첫번째 
폐지슬로트의 색인값은 1이다. 교환하여 내보낸 폐지식별자의 형식은 그림 4-22 와 같다. 


31 

8 

7 

C 

I 1 


페 지 슬로트색 인값 

령역번호 

0 









그립 4-22. 교환하여 내보낸 페지식별자 

SWP_ENTRY ( type , offset ) 마크로는 교환령역색인값 type 와 폐지슬로트색인값 
offset 로부터 교환하여 내보낸 폐지식별자를 생성한다. 반대로 SWP_TYPE 와 
SWP _ OFFSET 마크로는 교환하여 내보낸 폐지식별자로부터 교환령역색인값과 폐지슬로 
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트색인값을 뽑아낸다. 

페지를 교환하여 내보내면 해 당 폐지의 식별자를 폐지표에 페지입구점으로 삽입하여 
필요할 때 찾을수 있게 한다. 이 식별자의 제일 아래비트는 Present 기발에 대응하는데 
언제나 0으로 설정되여 이 폐지가 현재 RAM 에 없음을 나타낸다. 그러나 웃자리 30 bit 
중에서 적어도 한 비트는 1이여야 한다. 

교환령역 0의 슬로트 0에는 저장되는 폐지가 없기때문이다. 따라서 페지표 입구점 
값으로부터 다음과 갈은 3가지 경우를 구분할수 있다. 

o 빈 입구점 

이 페지는 프로쎄스의 주소공간에 속하지 않는다(모든 비트가 0인 경우). 

웃자리 31 bit 중에 1인 비트가 있고 마지막 비트가 0인 폐지는 현재 교환하여 내보냈다. 

o 제일아래자러비트가 1 

이 폐지는 RAM 에 있다. 

교환령역의 최 대 크기 는 슬로트를 나타내 는데 사용하는 비 트의 수에 따라 결정된다. 
80 x 86 방식 에 서 이 비 트의 수는 24 bit 이 므로 교환령역 의 최 대 크기 는 224개 슬로트가 된 
다. (슬로트크기 가 4 kB 므로 64 GB 까지 가능하다. ) 

한 패지가 여러 프로쎄스의 주소공간에 속할수 있으므로(《교환캐쉬》참고) 폐지는 
어떤 프로쎄스의 주소공간에서 교환하여 내보내기되였어도 여전히 주기억기에 있을수 있 
으며 따라서 한 패지를 여러번 교환하여 내보낼수 있다. 물론 패지는 물리적으로 한번만 
교환하여 내보내여 저장되며 처음 교환하여 내보낼 때에도 이후에는 swap _ map 계수기 
만 증가한다. 

이미 교환하여 내보낸 페지를 다시 교환하여 내보내면 swap _ duplicate () 함수를 호 
출한다. 이 함수는 변수로 받은 교환하여 내보낸 폐지식별자가 유효한지 확인하고 대응 
하는 swap _ map 계수기를 증가시 킨다. 좀 더 자세히 설명 하면 다음과 같은 작업을 수행 
한다. 

1. SWP _ TYPE 와 SWP _ OFFSET 마크로를 사용하여 변수에서 구획번호 TYPE 와 
폐지슬로트색인값 offset 를 뽑아낸다. 

2. 활성화된 교환령역인지 검사한다. 그렇지 않으면 0을 반환한다. (잘못된 식별자) 

3. 페지 슬로트가 유효하고 내 용이 있는것 인지 검사한다. ( swap _ map 계수기 가 0보다 
크고 SWAP _ MAX _ BAD 보다 작은 경 우) 그렇 지 않으면 0을 반환한다. (잘못된 식 별 자) 

4. 교환하여 내보낸 페지식별자는 유효한 페지를 가리킨다. swap _ map 계수기가 
SWAP _ MP _ MAX 에 도달하지 않았으면 1 증가시킨다. 

5. 1을 반환한다. (유효한 식별자) 


3) 교환령역활성화와 비활성화 

교환령역 을 초기 화하면 초사용자(좀 더 정 확히 말하자면《 프로쎄 스의 자격 과 특질》 
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에서 설명하는 CAP_SYS_ADMIN 권한을 소유한 모든 사용자)는 /bin/swapon 과 
/bin/swapo 打를 사용하여 교환령역을 활성화하거나 비활성화 할수있다. 이것들은 
swaponO 과 swapo 打◦체계호출을 사용한다. 이것들에 대응하는 봉사루린을 간단히 보자. 
o sys_swapon ( ) 봉사루린 

sys_swapon() 봉사루린은 다음과 같은 변수를 받는다. 
specialfile 

이 변수는 장치 파일(구획) 또는 교환령 역실현에 사용한 일반파일의 경 로명 (사용자 
방식주소공간에 있다.)을 나타낸다. 
swap_flag 

이 변수는 SWAP_FLAG_PREFER 한 비 트와 교환령역 의 우선순위 를 나타내 는 31bit 
로 구성되 여 있다 . (15bit 는 SWAP_FLAG_PREFER 가 설정되 여 있을 때 에만 의미 가 있 
다.) 

이 함수는 교환령역이 생성될 때 첫번째 슬로트에 들어간 swap_header 의 마당을 
검사한다. 이 함수가 실행 하는 주요 단계는 다음과 갈다. 

1. 현재프로쎄스가 CAP_SYSYSYS_ADMIN 권한이 있는지 검사한다. 

2. 교환령역서술자의 배렬 swapjnfo 에서 SWP_USED 기발이 설정되지 않은 첫번 
째 서술자 즉 대응하는 교환령 역 이 활성화되지 않은 서술자를 찾는다. 찾지 못하였다면 
이미 활성화된 교환령역 MAX_SWAPFILES 개가 있다는 의미이므로 오유코드를 반환 
한다. 

3. 교환령역에 대한 서술자를 찾았다. 함수는 서술자의 마당을 설정한다. (flags 를 
SWP_USED 로 lowest_bit 와 highest_ b i t 를 0 으로) 그러 고 서 술자의 색 인값이 
nr_swapfiles 보다 크면 이 변수 (nr_swapfiles) 를 변경한다. 

4. swap_ffflags 변수에 새 로운 교환령 역의 우선순위가 지정되 여있으면 함수는 서 
술자의 prio 마당을 설정한다. 그렇지 않으면 이 마당을 모돈 활성화된 교환령역의 우선 
순위중 가장 작은 값보다 1작은 값으로 설정한다. (가장 후에 활성화한 교환령 역 이 가장 
느린 블로크장치에 있다고 가정한다.) 이미 활성화 다른 교환령역이 없으면 1로 설정한 
다. 

5. specialfile 변수가 가리키는 문자렬을 사용자방식주소공간에서 복사한다. 

6. 사용자방식주소공간에서 복사한 문자렬에 대서 경로명 람색을 하기 위해 path_init() 
와 patti_walk() 를 호출한다. 

7. patti_walk() 가 반환한 등록부입구점객체와 태워진 파일체계서술자의 주소를 교 
환령 역서술자의 sw_file 과 swap_vfsmnt 마당에 각각 저장한다. 

8. specialfile 변수가 블로크장치파일을 나타내면 함수는 다음과 같은 단계를 실행 한다. 

a. 장치번호를 서술자의 swap_device 마당에 저장한다. 

b. 장치의 블로크크기를 4kB 로 설정한다. 즉 blksize_size 입구점을 PAGE_SIZE 
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로 설정한다. 

c. bd_acquire() 와 do_open() 을 호출하여 블로크장치구동프로그람을 호출한다. 
( 《블로크장치구동프로그람 초기 화》참고) 

9. swap_info 에서 다른 교환령 역의 address_space 객체를 살펴봄으로써 이미 활성 
화된 교환령 역 인지 검 사한다. (교환령 역 서 술자의 주소 q 에 대 해 대 응하는 
address_space 객체를 q->swap_file->d_inode->i_mapping 에서 얻을수 있 다.) 이미 
활성회된 령역이라면 오유코드를 반환한다. 

10. 폐지 틀을 할당하고 rw_swap_page_nolock() 을 호출하여 (뒤 에 나오는《 교환 
페 지 전송》참고) 교환령 역의 첫 번째 페 지 에 저 장된 swap_header 를 읽는다. 

11. 교환령역의 첫번째 페지의 마지막 10 개 문자가 SWAP_SPACE 또는 
SWAPSPACE2( 교환알고리듬에는 약간 다른 두가지 판본이 있다.)와 일치하는지 검사한 
다. 일치하지 않으면 specialfile 변수가 초기화한 교환령역이 아니므로 오유코드를 반환한 
다. 론의를 간단히 하기 위해 교환령역의 문자렬이 SWAPSPACE2 이 라고 가정한다. 

12. 교환령역서술자의 lowest_bit, highest_bit 마당을 swapjheader 의 

info. last_page 마당에 저 장한 교환령 역 의 크기 에 따라 초기 화한다. 

13. vmallocO 을 호출하여 새로운 교환령역에 대응하는 계수기배렬을 생성하고 그 
주소를 교환서술자의 swap_map 마당에 저장한다. 이 배렬의 요소를 swap_header 의 
info.bad_pages 마당에 저 장되 여있는 결함있는 폐 지 슬로트목록에 따라 0 또는 
SWAP_MAP_BAD 로 초기화한다. 

14. 첫 번째 페지 슬로트의 info. last_page 와 info. nr_badpages 마당값을 사용하여 
사용가능한 페지슬로트의 수를 계산한다. 

15. 교환서술자의 flags 마당을 SWP_WRITEOK 으로， pages 마당을 사용가능한 폐 
지슬로트의 수로 설정하고 nr_swap_pages 와 total_swap_pages 변수를 갱신한다. 

16. 새로운 교환령역서술자를 swap_list 변수가 가리키는 목록에 삽입한다. 

17. 교환령역의 첫 패지의 자료를 포함하는 패지틀을 해제하고 0 을 반환한다. (성공) 

o sys_swapoff () 봉사루린 

sys_swapoff () 봉사루린은 specialfile 변수에 지정한 교환령역을 비활성 (사용중단) 
상태로 만든다. 이 작업은 sys_swapon() 에 비해 훨씬 더 복잡하고 시간이 많이 걸린 
다. 비활성화할 구획이 아직도 여러 프로쎄스에 속한 폐지를 포함하고있을수 있기때문이 
다. 따라서 이 함수는 이 교환령역을 탐색하여 모든 폐지를 교환하여 넣어야 한다. 각 
교환하여넣기는 새로운 폐지틀을 요구하기때문에 남아있는 폐지틀이 더는 없을 경우 실 
패 할수도 있다. 이 경우 함수는 오유코드를 반환한다. 작업은 다음과 같은 단계를 통해 
이루어진다. 

1. 현재프로쎄스에 CAP_SYS_ADMIN 가 있는지 검사한다. 

2. specialfile 이 가리키는 문자렬을 복시하고 pa 仕匕 init() 와 pa 仕匕 walkO 를 호출 
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하여 경 로명탐색 을 실행 한다. 

3. swap_list 가 가리 키 는 목록을 림 색 하여 서 술자의 swap_file 마당이 경 로명탐색 
에서 찾은 등록부입구점객체를 가리키는 서술자를 찾는다. 이런 서술자가 없으면 잘못된 
변수가 함수에 전달된것이므로 오유코드를 반환한다. 

4. 그렇 지 않고 서 술자가 존재 하면 서 술자의 SWP_WRITEOK 기 발이 설정 되 여 있는 
지 검사한다. 기 발이 설정 되 여있지 않으면 교환령역 을 이 미 다른 프로쎄 스가 비 활성 화한 
것이므로 오유코드를 반환한다. 

5. 서술자를 목록에서 제거하고 flags 마당을 SWP_USED 로 설정하여 이 함수가 교 
환령역을 비활성화하기 전에 핵심부가 이 교환령역에 페지를 더 저장하지 않도록 한다. 

6. 교환령역서술자의 pages 마당에 저장된 교환령역크기를 nr_swap_pages 와 
total_swap_pages 값에서 뺀다. 

7. try_to_unuse() 함수를 호출하여 교환령역에 남아있는 모든 폐지를 RAM 으로 
가져 오게 하고 이것들 페 지를 사용하는 프로쎄 스의 페 지 표를 갱 신한다. 

8. try_to_unuse() 가 요청한 모든 페지틀을 할당하는데 실패하면 교환령역을 비활 
성화할수 없다. 따라서 함수는 다음과 갈은 단계를 실행 한다. 

a. 교환령역서술자를 다시 swapjist 목록에 넣고 flags 마당을 SWP_WRITEOK 
로 설정 한다. (단계 5 참고) 

b. pages 마당의 값을 nr_swap_pages 와 total_swap_pages 변수에 더 한다. (단계 6 
참고) 

c. pa 仕 i_release 0를 호출하여 단계 2의 patti_walk() 에서 할당한 VFS 객체를 해 
제 한다. 

d. 끝으로 오유코드를 반환한다. 

9. 그렇지 않으면 사용중인 모든 폐지슬로트를 RAM 으로 옮기는 일을 성공한것이 
다. 따라서 함수는 다음과 같은 단계 를 실 행한다. 

a. specialfile 이 블로크장치 파일을 나타내 면 대 응하는 블로크장치 구동프로그람을 
해제 한다. 

b. path_release() 를 호출하여 단계 2의 patii_walk() 에서 할당한 VFS 객체를 해 
제 한다. 

c. swap_map 배럴을 저장하는데 사용한 기억기령역을 해제한다. 

d. path_release() 를 다시 호출한다. specialfile 을 가리키는 VFS 객체를 
sys_swapon() 이 호출한 pa 比 i_walk() 함수에서 할당했을수 있기때문이다. 

e. 0을 반환한다. (성 공) 

o try_to_unuse() 함수 

앞에서 살껴본것처럼 try_to_unuse() 함수는 페지를 교환하여 넣기하고 교환하여 
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내보낸 모든 폐지의 표를 갱신한다. 

함수는 모든 핵심부스레드와 프로쎄스의 주소공간을 방문하며 표시로 사용하는 
init _ mm 기억기서술자부터 시작한다. 이 함수는 새치기가 활성화된 상태에서 오래동안 
실행되는 함수이다. 따라서 다른 프로쎄스와의 동기 화가 중요하다. try _ to _ unuse () 함 
수는 교환령역의 swap_map 배렬을 순차적으로 탐색한다. 함수가 시용중인 폐지슬로트 
를 발견하면 폐지를 교환하여 넣기하고 이 패지를 참조하는 프로쎄스를 찾기 시작한다. 
경쟁조건 (race condition )4- 피하기 위 해 이 두 연산의 순서를 지켜 야 한다. 입출력자 
료전송중에는 패지에 잠그기가 걸리므로 다른 프로쎄스는 패지에 접근할수 없다. 입출력 
자료전송이 완료되면 try _ to _ unuse () 가 패지를 다시 잠그기때문에 다른 핵심부조종경 
토에 의해 교환하여 내보낼수 없다. 또한 각 프로쎄스가 교환하여넣기나 교환하여 내보 
내기 연산을 시작하기 전에 폐지캐쉬를 탐색하므로 경쟁조건을 피할수 있다.(《 교환캐 
쉬》참고) 그리 고 try _ to _ unuse () 가 접 근하는 교환령 역은 쓰기 금지 로 표시 해 두기때 문 
에 ( SWP _ WRITEOK 기 발을 설정 하지 않음) 다른 프로쎄 스가 이 령 역의 폐지슬로트를 
교환하여 내보낼수 없다. 

그러나 try _ to _ unuse () 는 교환령역의 사용계수기배렬 swap _ map 을 여러번 람색해 
야 할수도 있다. 교환하여 내보낸 폐지참조를 포함하는 기억기령역이 프로쎄스목록에서 
한번 탐색할 때 에는 나타나지 않았다가 다음에 람색 할 때에는 다시 나타날수 있다. 

례를 들어 dojmmmap 0함수의 설명을 다시 보자. (《선형주소구간해제》참고) 프 
로쎄스가 선형주소구간을 해제하면 do _ munmap () 은 해제대상인 선형주소를 포함하는 
모든 기억기령역을 프로쎄스목록에서 제거한다. 그리고 함수는 부분적으로 배치가 해제 
된 기억기령역을 다시 프로쎄스목록에 삽입한다. do _ munmap () 은 해제된 선형주소구간 
에 속하는 교환하여 내보낸 페지의 해제를 처리한다. 그러나 다행히 프로쎄스목록에 다 
시 삽입해야 하는 기억기령역에 속하는 교환하여 내보낸 패지는 해제하지 않는다. 

따라서 try _ to _ unuse () 는 대응하는 기억기령역이 림시로 프로쎄스목록에서 빠져있 
어 서 주어 진 폐 지 슬로트를 참조하는 프로쎄 스를 찾는데 실패할수 있 다. 이 상태 를 해 결 
하기 위해 try _ to _ unuse () 는 모든 참조계수기가 0이 될 때까지 swap_map 배렬의 람 
색을 계속한다. 

결국 프로쎄스목록에서 사라진 교환하여 내보낸 페지를 참조하는 기억기령역이 다시 
나타나게 되고 try _ to _ unuse () 는 모든 페지슬로트를 해제하는데 성공한다. 

이제 try _ to _ urmse () 가 실행하는 주요 연산을 보자. 이 함수는 변수로 받은 교환 
령역의 swap_map 배럴에 있는 참조계수기에 대해 순환을 계속 반복한다. 각 참조계수 
기 에 대 해 다음 단계를 수행 한다. 

1. 계수기 가 0이거 나(패지 가 저장되 여있지않음) SWAP _ MAP _ BAD 면 다음 페 지슬 
로트에 대해 계속한다. 

2. 그렇지 않으면 read _ swap _ cache _ async 0함수를 호출하여 (뒤 에 나오는《 교환 
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페 지 전송》참고) 페 지 를 교환하여 넣 기 한다. 이 과정 에 서 새 로운 페지 틀이 필요하면 할 
당하고 폐지 틀을 폐지슬로트에 저 장되 여있던 자료로 채우고 폐지를 교환캐쉬 에 넣는다. 

3. 새로운 페지가 디스크의 내용으로 바뀔 때까지 기다린 다음 폐지에 잠그기를 건다. 

4. 앞의 단계 를 실행하는중에 프로쎄 스가 보류될수 있으므로 참조계 수기 가 0인지 
다시 검사한다. 0이 면 다음 폐 지 슬로트에 대 해 계속한다. (다른 핵 심부조종경 로에서 이 
미 이 교환패지를 해제하였다.) 

5. init_mm 이 나타내는 2중련결목록의 모든 기억기서술자에 대해 
unuse _ process () 를 호출한다. (《기억기서술자》참고) 이 함수는 많은 시간을 소비하며 
기억기서술자를 소유하는 프로쎄스의 모든 폐지표입구점을 람색하여 교환하여 내보낸 페 
지식별자를 모두 폐지틀의 물리적주소로 변경한다. 함수는 이 변경을 반영하기 위해 
swap _ map 배렬의 폐지슬로트 계수기를 감소시키고 ( SWAP _ MAP _ MAX 인 경우는 례 
외) 폐지틀의 사용계수기를 증가시킨다. 

6. shmem _ unuse () 를 호출하여 교환하여 내보낼 폐지가 IPC 공유기억기 자원으로 
사용되는지 검사하고 그 경우에 대해 적절히 처리하게 한다. (《IPC 공유기억기》참고) 

7. 폐지의 참조계수기의 값을 검사한다. 값이 SWAP _ MAP _ MAX 면 폐지슬로트는 
영 구적 이다. 이 경 우를 해 제 하기 위 해 참조계 수기 를 1로 만든다. 

8. (참조계수기의 값에 따라) 교환캐쉬도 폐지를 포함하고있을수 있다. 폐지가 교 
환캐쉬에 속하면 rw _ swap _ page () 함수를 호출하여 내용을 디스크에 흘리도록 하고(폐 
지가 불결한 경우) delete _ from _ swap _ cache () 를 호출하여 페지를 교환캐쉬에서 제거 
하도록 하고 사용계수기를 감소시킨다. 

9. 패지서술자의 PG _ dirty 기발을 설정하고 폐지의 잠그기를 해제한다. 

10. 현재 프로쎄스의 need _ resched 마당을 검사한다. 마당이 설정되 여있으면 
scheduleO 을 호출하여 CPU 를 풀어주도록 한다. 교환령역을 비활성화하는것은 오래 
걸리는 작업이므로 핵심부는 체계의 다른 프로쎄스가 계속 실행되도록 해야 한다. 순서 
짜기프로그람이 현재프로쎄스를 다시 선택하면 try _ to _ umise () 함수는 이 단계에서 계 
속 실행 한다. 

11. 계속하여 다음 페 지 슬로트에 대해서 1 단계 에 서 시 작한다 . 

이 함수는 swap _ map 배렬의 모든 참조계수기가 0이 될 때까지 계속한다. 다음페지 
슬로트에 대한 검사를 시작하였다 하더라도 이전폐지슬로트의 참조계수기가 여전히 정수 
일수 있다. 5단계에서 일부기억기령역이 람색한 프로쎄스목록에서 림시로 제거될수 있 
으므로 유령 ( ghost ) 프로쎄스가 폐지를 계속 참조할수 있다. 결국 try _ to _ unuse () 는 
모든 참조를 처 리 한다. 그러 나 도중에 는 더 는 교환캐 쉬 에 없 으며 잠그기 가 풀려있 고 비 
활성 화되 고있는 교환령 역 의 폐지 슬로트에 복사본을 포함한 폐지 가 존재 한다. 

이 상태가 결국 자료손실을 가져온다고 생각할수도 있다. 례를 들어 어떤 유령프로 
쎄스가 폐지슬로트에 접근하여 폐지의 교환하여 넣기를 시작하였다고 가정하자. 폐지가 
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교환캐쉬 에 없으므로 프로쎄스는 새로운 폐지틀을 디스크에서 읽은 자료로 채운다. 그러 
나 이 페지틀은 유령프로쎄스와 폐지를 공유하는것으로 여겨지는 프로쎄스가 소유한 폐 
지틀과 다를수 있다. 

이 문제 는 교환령역 을 비 활성 화하는동안에 발생 하지 않는다. 유령 프로쎄 스로부터 의 
간섭은 교환하여 내보내는 폐지가 비공개닉명기 억기배 치 에 속하는 경우에만 발생 하기때 
문이다. 이 경우 폐지틀은《쓰기복사》기법에 의해 처리되므로 패지를 참조하는 프로쎄 
스에 다른 폐지틀을 할당하는것은 전혀 문제 가 되지 않는다. 그러 나 try _ to _ unuse () 함 
수는 페 지 를 불결 한것 으로 표시 한다. (9 단계 ) 

그렇지 않으면 try _ to _ swap _ out () 함수가 후에 어떤 프로쎄스의 패지표에서 폐지를 
다른 교환령 역 에 저 장하지 않고 삭제 해 버릴수있다. (《폐지를 교환하여 내 보내 기》참고) 
4) 폐지슬로트의 할당과 해제 

뒤에서 보지만 기억기를 비울 때 핵심부는 짧은 시간동안에 많은 폐지를 교환하여 
내 보낸 다. 따라서 교환령역 에 접 근할 때 디 스크탐색 시 간을 최 소화하기 위 해 이 폐 지 들을 
련속하는 슬로트에 저장하도록 시도하는것 이 중요하다. 

여유슬로트를 찾는 알고리듬의 접근방법으로 다음과 같이 간단한 두가지 전략중 하 
나를 선택할수 있 다. 

• 언제나 교환령역의 처음부터 시작한다. 여유폐지슬로트가 서로 멀리 떨어져있을수 
있으므로 이 접 근방법 은 교환하여 내 보내 기연산중의 평 균탐색시 간을 증가시 킬 수 있 다. 

• 언제나 이전에 마지막으로 할당된 폐지슬로트부터 시작한다. 이 접근방법은 대부 
분의 교환령역 이 여 유있다면(대 부분의 경 우이 다. ) 채 워 져 있는 몇 안되 는 폐 지 슬로트가 
서 로 멀 리 떨 어져 있을수 있으므로 교환하여 넣 기연산도중의 평 균 탐색 시 간을 증가시 킬것 
이다. Linux 는 혼합된 접근방법을 사용한다. Linux 는 언제나 이전에 마지막으로 할당 
된 페지슬로트에서 시작하지만 다음의 경우는 례외 이다. 

• 교환령역의 끝에 도달했을 때 

■ 가장 최근에 다시 교환령역의 시작위치에서 할당을 시작한 후 여유패지슬로트를 
SWAPFILE _ CLUSTER (보통 256) 개 할당했을 때 

swap _ info _ struct 서술자의 cluster _ nr 마당은 할당된 여유페지 슬로트의 수를 저장한 
다. 함수가 다시 교환령역의 시작위치에서 할당을 시작하면 이 마당을 0으로 초기화한다. 
cluster _ next 마당은 다음 할당에서 검사할 첫번째 폐지슬로트의 색 인값을 저장한다. 

핵심부는 여유폐지슬로트를 찾는 속도를 높이려고 각 교환령역서술자의 lowest_bit 
와 highest _ bit 마당을 최신상태로 유지한다. 이 마당은 여유있을수 있는 처음과 마지막 
폐지슬로트를 나타낸다. 다시 말해서 lowest _ bit 아래와 highest _ bit 우에 있는 모든 페 
지슬로트는 할당된 상태 이 다. 
o scan_swap 一 mapO 함수 

어떤 교환령역에서 여유페지슬로트를 찾기 위해 scan _ swap _ map 0을 사용한다. 
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이 함수는 교환령 역서술자를 가리키는 변수를 받아서 여유폐지슬로트의 색 인값을 반 
환한다. 교환령역 에 여 유슬로트가 없 으면 0 을 반환한다. 함수는 다음과 같은 단계 를 실 
행 한다. 

1. 현재클라스터를 사용하려고 시도한다. 교환령역서술자의 cluster _ nr 마당이 정수 
이면 계수기배렬인 swap _ map 에서 cluster _ next 색인값이 가리키는 요소부터 시작하여 
빈 입구점을 찾는다. 빈 입구점을 찾으면 cluster _ nr 마당을 감소시키고 4단계로 간다. 

2. 이 단계에 이르면 cluster_nr 마당이 0이거나 cluster _ next 에서 시작한 람색 이 
swap _ map 배렬에서 빈 입구점을 찾지 못한 경우이다. 이제 혼합탐색의 두번째 단계를 
시도할 차례이다. cluster_nr 을 SWAPFILE_CLUSTER 로 다시 초기화하고 
lowest _ bit 색인값에서부터 여유폐지슬로트 SWAPFILE _ CLUSTER 개로 구성된 그를 
을 찾아본다. 이 려 한 그룹을 찾으면 4단계로 간다. 

3. 여유페지슬로트 SWAPFILE _ CLUSTER 개로 이루어진 그름을 찾지 못하였다. 
여유페지슬로트 하나를 찾기위해 lowest _ bit 색인값에서부터 배럴을 다시 찾기 시작한다. 
빈 입구점을 찾을수 없으면 lowest _ bit 마당을 배렬의 최대 색인값으로 highest _ bit 마당 
을 0으로 설정하고 0을 반환한다. (교환령역이 모두 찼다.) 

4. 빈 입구점을 찾았다. 입구점안에 1을 넣고 nr _ swap _ pages 를 감소시킨다. 
lowest _ bit 와 highest _ bit 마당을 적절히 변경하고 cluster _ next 마당을 방금 할당한 페 
지 슬로트의 색 인값+1로 설정 한다. 

5. 할당한 폐지슬로트의 색 인값을 반환한다. 

o get _ swap _ page () 함수 

get _ swap _ page () 함수는 모든 활성교환령역을 검색하여 여유페지슬로트 하나를 찾 
아준다. 이 함수는 새로 할당한 폐지슬로트의 색인값을 반환해주거나 모든 교환령역이 
꽉 차있으면 0을 반환한다. 함수는 활성화상태인 교환령역들의 서로 다른 우선순위를 
고려 한다. 

이 함수는 두번의 과정 ( pass ) 으로 이루어진다. 첫번째 과정은 부분적이며 같은 우 
선순위의 령 역 에만 적용된다. 함수는 그런 령 역을 원형방식으로 돌아가면서 여유슬로트 
를 찾는다. 여유폐지슬로트를 찾을수 없으면 두번째 과정을 교환령 역목록의 처음부터 시 
작한다. 두번째 과정에서는 모든 교환령역을 검사한다. 이 함수는 다음과 같은 단계를 
실행 한다. 

1. nr _ swap _ pages 가 0이거나 활성교환령역이 없으면 0을 반환한다. 

2. swap _ list . next 가 가리 키는 교환령 역부터 검 토하기 시 작한다. (교환령 역 은 높은 
우선순위 부터 우선순위 가 감소하는 방향으로 정 렬 되 여있 다. ) 

3. 교환령 역 이 활성 회된 상태고 비활성화하는 도중이 아니면 scan _ swap _ map () 을 
호출하여 여 유페 지 슬로트를 할당한다. scan _ swap _ map () 이 폐 지 슬로트색 인값를 반환하 
면 함수의 작업은 사실상 완료되였다. 그러나 다음 호출에 준비해야 한다. 다음교환령역 
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의 우선순위가 현재 교환령 역과 갈으면 swap _ list . next 가 교환령역목록의 다음교환령역 
을 가리 키도록 변경 한다. (이렇게 해서 이 교환령 역들을 원형 방식으로 사용할수있다.) 다 
음교환령역 이 현재교환령역과 우선순위가 같지 않다면 함수는 목록의 첫번째 교환령역으 
로 swapjist . next 를 설정 한다. (다음 탐색은 우선순위 가 가장 높은 교환령 역 에서 시 작 
한다). 함수는 방금 할당한 폐지슬로트에 대응하는 식 별자를 반환하면서 완료한다. 

4. 여기 에 이르면 교환령역에 쓰기금지 가 되 여있거 나 여유폐지슬로트가 없다. 교환 
령 역 목록의 다음교환령역 이 현재교환령역 과 우선순위 가 같다면 다음교환령역 을 현재 교환 
령역 으로 설정 하고 3단계 로 이 동한다. 

5. 여기 에 이르면 교환령 역목록의 다음교환령역은 이전것보다 우선순위가 낮다. 다 
음 단계는 함수가 두 과정중 어느 과정을 실행하는가에 따라 달타진다. 

a . 현재 첫번째(부분적) 과정라면 목록의 첫번째 교환령역을 대상으로 한다. 3단계 
로 이동해서 두번째 과정을 시작한다. 

b . 그렇지 않으면 두번째 과정 이 다. 목록에 다음 요소가 있는지 검사한다. 다음 요 
소가 있다면 이것을 대상으로 3단계로 이동한다. 

6. 여기 에 이르면 두번째 과정으로 목록을 모두 탐색했고 여유패지슬로트를 발견하 
지 못했으므로 0을 반환한다. 

swap _ free () 함수는 페지를 교환하여넣기 할 때 대응하는 swapjmap 계수기를 감소시 
키기 위해 사용한다. (표 4-12 참고) 계수기가 0이 되면 페지슬로트 식별자가 더는 어떤 
폐 지표입 구점 에 도 포함되 지 않으므로 페 지슬로트는 여 유있는것 이 다. 그러 나 교환캐 쉬 에 
서 보지만 교환캐쉬도 폐지슬로트의 소유자로 취급한다. 

이 함수는 교환하여 내보낸 폐지식별자를 나타내는 entry 변수를 받으며 다음과 같 
은 단계를 실행한다. 

1. entry 에서 교환령역색인값과 편위 폐지슬로트색인값을 엄고 교환령역서술자의 
주소를 얻는다. 

2. 교환령역 이 활성 화상태 인지 검 사한다. 그렇지 않으면 즉시 되돌이 한다. 

3. 해제중인 폐지슬로트에 대응하는 swap _ map 계수기가 SWAP _ MAP _ MAX 보다 
작으면 계 수기 를 감소시 킨다. SWAP _ MAP _ MAX 값을 담은 입 구점 은 영 구적 이라고 퀴 
급한다. (삭제 할수 없다. ) 

4. swap _ map 계수기가 0이되면 nr _ swap _ pages 를 증가시키고 필요하다면 교환령 
역서술자의 lowest _ bit 와 higliest _ bit 마당을 변경한다. 

3. 교환캐쉬 

교환캐쉬 는 교환중인 폐지 에 접 근하려는 프로쎄 스들사이의 경 쟁조건 (race 

condition ) 을 피하기 위해서 득 필요하다. 

어떤 폐지를 한 프로쎄스가 소유하고있으면(또는 해당 폐지가 하나이상의 복제프로 
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쎄스가 소유한 주소공간에 속해있으면) 고려해야 하는 경쟁조건은 하나뿐이다. 즉 프로 
쎄스가 교환하여 내보내기중인 폐지에 접근하려고 하는 경우이다. 각 폐지슬로트마다 신 
호기 하나가 대응하는 신호기배렬을 사용하여 입출력자료 전송이 끝날 때까지 프로쎄스 
를 차단할수 있다. 

그러나 한 폐지를 여러 프로쎄스가 소유하는 경우가 많다. 핵심부가 교환하여 내보 
내기중인 폐지를 참조하는 모든 폐지표입구점을 빨리 찾을수 있으면 우의 신호기 배렬만 
으로 경쟁조건을 피할수 있다. 이렇게 함으로써 핵심부는 모든 프로쎄스가 같은 폐지틀 
과 교환하여 내보낸 폐지식별자를 볼수 있게 한다. 

Linux 2. 6에는 어떤 폐지틀에 대해 이 폐지틀을 소유한 모든 프로쎄스의 목록을 
얻을수 있는 빠른 방법이 없다. 모든 프로쎄스의 모든 페지표입구점을 탐색하여 주어진 
물리적주소를 가진 항목을 찾는것은 아주 높은 비용이 들기때문에 아주 가곰 수행한 
다. (례 를 들면 교환령 역 을 비 활성 화할 때 ) 

결국 같은 패지가 어떤 프로쎄스에 대해서는 교환하여 내보내여있고 어떤 프로쎄스 
에 대해서는 기억기에 존재하는 상태가 발생한다. 핵심부는 이렇게 이상한 상태에서 발 
생하는 경쟁조건을 피하려고 교환캐쉬를 사용한다. 교환캐쉬가 어떻게 동작하는지 설명 
하기 전에 어떤 경우에 여러 프로쎄스가 폐지틀을 공유하는지 다시 보자. 

• 페 지 틀이 공유실명 (shared nonanonymous ) 기 억 기 배 치 와 관련된 경 우(《 기 억 기 
배 치》참고) 

• 새로운 프로쎄스를 생성 ( fork ) 한 경우 또는 페지틀이 비공개기억기배 치에 속한 
경우처럼 《쓰기복사》로 패지틀을 처리하는 경우(《쓰기복사》참고) 

• 폐지틀을 IPC 공유기 억기 자원에 할당한 경우 (《 IPC 공유기 억기》참고) 또는 공유 
닉명기억기배치에 관련된 경우 

물론 여러 프로쎄스가 기억기서술자를 공유하고 따라서 전체 페지표를 공유하는 경 
우 폐지틀도 공유하게 된다. CLONE_VM 기발을 전달하여 cloneO 체계호출을 실행하면 
이런 프로쎄스들이 생성된다. (《 cloneO , forkO , vforkO 체계호출》참고) 그러나 교 
환알고리듬은 모든 복제프로쎄스를 한 프로쎄스로 취급한다. 따라서 여기서 프로쎄스들 
을 말할 때에는 서로 다른 기억기서술자를 소유하고있는 프로쎄스들을 의미한다. 

뒤에서 보지만 공유실명기억기배치에 사용하는 패지틀은 교환하여 내보내지 않는다. 
대신 다른 핵심부함수가 폐지틀자료를 적절한 파일에 저장하고 페지틀을 제거한다. 그러 
나 다른 두 종류의 공유페지틀은 교환알고리듬에서 교환캐쉬를 사용하여 주의깊게 처리 
해 야 한다. 

교환캐쉬는 교환령역에 복사된 공유폐지틀들을 의미한다. 별도의 자료구조로 존재하 
지 않고 대신 정규페지캐쉬에 있는 페지의 특정한 마당이 설정되여있으면 해당 페지가 
교환캐 쉬 에 들어있는것 으로 취 급한다. 

공유된 페지의 교환은 다음과 같이 동작한다. 두 프로쎄스 A 와 B 가 어떤 폐지 P 를 
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공유한다고 하자. 교환알고리 듬이 프로쎄 스 A 의 폐 지 틀을 탐색하여 폐 지 P 를 교환하여 
내 보낼 대 상으로 선택하였 다면 알고리 듬은 새 로운 폐 지 슬로트를 할당하고 모에 저 장된 
자료를 새로운 폐지슬로트로 복사한다. 그리고 교환하여 내보낸 폐지식별자를 프로쎄스 
A 의 대응하는 페지표입구점에 저장한다. 끝으로 _ free _ page () 를 호출하여 폐지틀을 
해제한다. 그러나 프로쎄스 묘도 폐지 P 를 소유하고있기때문에 페지의 사용계수기는 0이 
되지 않는다. 따라서 교환알고리듬은 교환령역으로 폐지를 전송하는데는 성공했지만 대 
응하는 페 지 틀을 회 수하는데 는 실패 한다. 

후에 교환알고리듬이 프로쎄스 B 의 폐지틀을 람색하여 패지 P 를 교환하여 내보내기 
로 선택하였다고 가정하자. 폐지를 다시 교환하여 내보내지 않으려면 핵심부가 폐지 P 
가 이미 교환령역으로 전송되였다는 사실을 알아야 한다. 또한 페지슬로트의 사용계수기 
를 증가시키기 위해서는 교환하여 내보낸 폐지식별자를 엄을수 있어야 한다. 

그림 4-23 은 서로 다른 시간에 여 러 프로쎄스에서 교환하여내보낸 어떤 공유폐지 에 
대 해 핵 심부가 수행 하는 작업 을 보여준다. 교환령역과 페지 P 안의 수자는 각각 페지슬 
로트의 사용계수기와 폐지의 사용계수기를 나타낸다. 각 사용계수기는 폐지나 폐지슬로 
트를 사용하는 모든 프로쎄스의 수를 포함하고 폐지 가 교환캐쉬 에 포함되 여있으면 교환 
캐쉬도 포함한다. 그림에서 4단계를 볼수있다. 

1. ( a ) 에서 P 는 A 와 묘의 페지 표에 모두 존재 한다. 

2. (的에서 P 는 A 의 주소공간에서 교환하여 내보냈다. 

3. ( c ) 에서 P 는 A 와 B 의 주소공간에서 모두 교환하여 내보냈지만 여전히 교환캐쉬 
에 있다. 

4. 마지막으로 ( d ) 에서 모는 해제되여 형제체계로 돌아간다. 
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( a ) 

교환령역 


( b ) 

교환령역 



(d) 


그림 4-23. 교환캐쉬의 역할 


교환캐 쉬 는《 폐 지 캐 쉬》에 서 설 명 한 패 지 캐 쉬자료구조와 처 리 부를 실 현 한다 . 다시 
말하지만 폐지캐쉬의 핵심은 폐지의 소유자를 식별하는 address_space 객체의 주소와 
편위값으로부터 알고리듬이 폐지서술자의 주소를 빨리 엄도록 하는 하쉬표이다. 

교환캐쉬에 있는 페지는 폐지캐쉬의 다른 폐지와 마찬가지로 저장되지만 다음과 같 
이 특별하게 처리한다. 

■ 페지서술자의 mapping 마당은 swapper_space 변수에 저 장된 address_space 객체 
를 가리킨다. 

• index 마당은 폐지에 대응하는 교환하여 내보낸 폐지식별자를 저장한다. 

또한 폐지가 교환캐쉬에 들어가게 되면 교환캐쉬가 페지틀과 페지슬로트 둘다 사용 
하므로 페 지 서 술자의 count 마당과 페 지 슬로트사용계 수기 를 증가시 킨다. 

1) 교환패쉬보조함수 

핵심부는 교환캐쉬를 처리하기 위해 몇가지 함수를 사용한다. 이 함수들은 주로 앞 
의 《페지캐쉬》에서 설명한 내용을 기반으로 한다. 뒤에서 고수준함수가 페지를 교환하 
여 넣기/내보내기위해 필요에 따라 저수준함수를 어떻게 호출하는지 살펴본다. 

교환캐쉬를 처리하는 주요함수는 다음과 같다. 

lookup_swap_cache 0 
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변수로 전달된 교환하여 내보낸 폐지식별자를 교환캐쉬에서 찾아서 패지주소를 반환 
한다. 페지가 캐쉬에 없으면 0 을 반환한다. 요청한 폐지를 찾기 위해 swapper_space 
페지주소공간객체의 주소와 교환하여 내보낸 페지식별자를 변수로 find_get_page() 를 
호출한다. 

add_to_swap_cache () 

페지교환캐쉬에 넣는다. swap _ duplicate () 를 호출하여 변수로 받은 페지슬로트가 
유효한지 검 사하고 페 지 슬로트사용계 수기 를 증가시 킨다. find _ get _ page () 를 호출하여 
address _ space 객체와 편위가 같은 폐지가 이미 캐쉬에 있 는지 확인 한다. 
add _ to _ swap _ cache () 를 호출하여 페지를 캐쉬에 넣는다. lru _ cache _ add () 를 호출하 
여 폐지를 비활성목록에 넣는다. (《 LRU 목록》참고) 

de lete_f rom_s wap_cache 0 

내용을 디스크에 휼리고 PG_dirty 기발을 해제하고 

remove_page_from_inode_queue 0 와 remove_page_from_hash_queue 0 를 호출 하 
여 폐 지 를 교환캐 쉬 에 서 제 거 한다. (《페 지 캐 쉬 자료구조》참고) 

f ree_page_and-swap_cache 0 

_; free _ page () 를 호출하여 페지를 해제한다. 호출한 프로쎄스가 폐지를 소유한 유 
일한 프로쎄스이면 함수는 폐지를 활성 또는 비활성목록에서 제거하고 (《 LRU 목록》참 
고) delete _ from _ swap () 를 호출하여 교환캐쉬에서 페지를 제거하고 페지내용을 디스 
크로 흘러고 swap _ free () 를 호출하여 교환령역의 페지슬로트를 해제한다. 

4. 교환폐지 전송 

교환폐지의 전송은 아주 많은 경쟁조건 (race condi 社 on) 과 기타 방지해야 할 잠재적 
인 위 험 (hazard) 때 문에 아주 복잡하다. 주기 적 으로 다음과 같은 사항을 검 사해 야 한다. 

■ 어떤 폐지에 대한 교환하여 넣기 또는 교환하여 내보내기도중 폐지를 소유하고있 
는 프로쎄스가 완료할수 있다. 

■ 어 떤 프로쎄 스가 교환하여 내 보내 기 를 시 도하는중에 다른 프로쎄 스가 해 당 페 지 교 
환하여 넣거나 반대로 어떤 프로쎄스가 교환하여 넣기를 시도하는중에 다른 프로쎄스가 
해당 폐지를 교환하여 내보내려 할수있다. 

다른 디 스크접 근류형 과 마찬가지 로 교환폐 지 에 대 한 입 출력자료전송도 차단연산이다. 
따라서 핵심부는 갈은 페지틀，같은 폐지슬로트 또는 둘 모두가 관련된 동시적 인 전송을 
피해야 한다. 

앞에서 설명한 기구를 통해 페지틀에 대한 경쟁조건을 피할수 있다. 특히 폐지틀에 
대한 입출력연산을 시작하기 전에 핵심부는 PG_locked 기발이 해제될 때까지 기다린 
다. 함수가 완료하는 과정에서 폐지틀잠그기를 엄으므로 다른 핵심부조종경로는 입출력 
연산동안 이 폐지틀의 내용에 접근할수 없다. 
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그러나 폐지슬로트의 상태를 추적할수 있어야 한다. 입출력자료전송과 관련된 폐지 
슬로트에 대한 배타적인 접근을 보장하기 위 해 폐지서술자의 PG_locked 기발을 다시 
사용한다. 교환폐지에 대해 입출력연산을 시작하기 전에 핵심부는 관련된 폐지틀이 교환 
캐 쉬 에 포함되 여있는지 검사한다. 포함되 여있지 않으면 핵 심부는 페지 틀을 교환캐 쉬 에 
추가한다. 어떤 페지를 전송중인데 어떤 프로쎄스가 해당 폐지를 교환하여 넣기하려 한 
다고 가정하자. 교환하여넣기와 관련한 작업을 시작하기 전에 핵심부는 주어진 교환하여 
내보낸 페지식별자에 대응하는 폐지틀을 교환캐쉬에서 찾는다. 페지틀을 찾는 경우 핵심 
부는 새로운 폐지틀을 할당하지 않고 캐쉬된 폐지틀을 사용해야 한다. 그리고 
PG_locked 기 발이 1로 설정 되 여있기때 문에 핵 심부는 이 기 발비 트가 0이 될 때 까지 핵 
심부 조종경로를 보류하여 입출력연산을 완료할 때까지 폐지틀의 내용과 교환령역에 있 
는 페지슬로트가 유지되도록 한다. 

요약하면 교환캐 쉬 덕 분에 폐 지 틀의 PG_locked 기 발은 교환령 역 의 폐 지 슬로트에 
대 한 잠그기의 역 할도 수행한다. 

1) rw _ swap _ page () 함수 

페지를 교환하여 넣기 또는 교환하여 내보내기하는데는 rw _ swap _ page () 함수를 사 
용한다. 이 함수는 다음과 같은 변수를 받는다. 

rw 

자료전송방향을 나타내는 기발. 교환하여 넣는 경우 READ , 교환하여 내보낼 경우 
WRITE 이 다. 

page 

교환캐쉬에 있는 폐지의 서술자주소. 

함수를 호출하기 전에 호출하는 쪽에서는 해당 폐지가 교환캐쉬 에 포함되 여있도록 
해 야하고 앞에 서 설명 한것 처 럼 폐 지 틀이 나 교환령 역 에 있는 페 지 슬로트에 대 한 동시 접 근 
으로 인한 경쟁조건을 방지하기 위해 페지에 잠그기를 걸어야 한다. 안전하게 처리하기 
위해 rw _ swap _ page () 함수는 이 두 조건을 실제 만족하는지 검사하고 page -> index 에 
서 교환하여 내보낸 페지식별자를 얻고 페지식별자의 페지서술자주소페지방향 기발 fW 
를 변수로 rw _ swap _ page _ base () 함수를 호출한다. 

rw _ swap _ page _ base () 함수는 교환알고리듬의 핵심으로 다음과 같은 단계를 수행 
한다. 

1. 자료전송이 교환하여 넣 기연산인 경 우 ( rw 가 RFAD 이 면) 폐 지 틀의 
PG_uptodate 기발을 해제한다. 교환하여 넣기연산을 정상적으로 완료할 때에만 이 기 
발을 다시 설정한다. 

2. 교환하여 내보낸 폐지식 별자로부터 교환령 역서술자와 슬로트색 인값을 얻는다. 

3. 교환령 역 이 디 스크구획 이 면 교환령 역서 술자의 swap_device 마당에서 대 응하는 

블로크장치번 호를 얻 는다. 교환디 스크구획 의 블로크크기 는 언제 나 폐 지 크기 
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(PAGE_S1ZE) 와 갈으므로 이 경 우 슬로트색 인값은 요청한 자료의 론리 적 블로크번호을 
나타낸다. 

4. 그렇 지 않으면 교환령역 은 정 규파일 이다. 다음 단계 를 수행 한다. 

a. 파일을 저장하고있는 블로크장치의 번호를 파일의 i 마디객체의 i_dev 마당에서 
얻 는다. (교환령 역서 술자의 swap_files->d_inode 마당) 

b. 장치의 블로크크기 를 얻는다. (i 마디 의 i_sb->s_blocksize 마당) 

c. 주어진 슬로트색인값에 대응하는 파일블로크번호를 계산한다. 

d. 패지슬로트에 있는 블로크들의 론리적블로크번호들로 지역배럴을 채운다. 매 론 
리적블로크번호는 i 마디의 i_mapping 마당에 저장된 주소가 가리키는 address_space 객 
체의 bmap 메쏘드를 호출하여 얻는다. bmap 메쏘드가 실패하면 rw_swap_page_base() 
는 0을 반환한다. (실패 ) 

5. brw_page() 함수가 활성화하는 폐지입출력연산이 비동기적 이기때문에 
rw_swap_page 0 함수는 실제 입출력 자료전송이 완료되기전에 완료할수도 있다. 그렇지 
만 앞의 《페지 입 출력 연산》에서 설명 한것처 럼 핵 심부는 end_bu 打 er_io_async () 함수를 
실행하고(모든 자료전송이 성공적으로 완료되였음을 확인한다.) 폐지의 잠그기를 풀고 
PG_uptodate 기 발을 설정 한다. 

2) read _ swap _ cache _ async () 함수 

read_swap_cache_async() 함수는 변수로 교환하여 내보낸 폐지식별자를 받는다. 
이 함수는 핵심부가 폐지를 교환하여 넣기해야할 때 호출한다. 교환구획에 접근하기 전 
에 함수는 교환캐쉬가 원하는 폐지틀을 포함하고있는지 검사해 야 한다. 이 함수는 다음 
과 갈은 연산을 수행 한다. 

1. flnd_get_page() 를 호출하여 폐지를 교환패쉬에서 찾는다. 페지를 찾았으면 폐 
지서술자의 주소를 반환한다. 

2. 폐지 가 교환캐쉬 에 포함되여있지 않다. alloc_page() 를 호출하여 새로운 폐지틀 
을 할당한다. 여유패지틀이 없으면 0을 반환한다. (체계에 여유 기억기가 없음을 나타낸 
다.) 

3. add_to_swap_cache () 를 호출하여 페지 틀을 교환캐 쉬에 삽입 한다. 앞서 《교환 
캐쉬보조함수》에서 설명한것처럼 이 함수는 패지에 잠그기를 건다. 

4. 앞단계의 add_to_swap_cache() 는 페지사본이 교환패쉬에 있으면 실패할수 있 
다. 례를 들어 프로쎄스가 2단계에서 차단될수 있으며 다른 프로쎄스가 같은 폐지슬로 
트에 대해 교환넣기연산을 시작할수 있다. 이 경우에 함수는 3 단계에서 할당한 폐지틀 
을 해제하고 1단계에서 다시 시작한다. 

5. 그렇지 않으면 새로운 폐지틀이 교환캐쉬에 삽입되였다. READ 와 패지서술자를 
변수로 전달해서 rw_swap_page () 를 호출하여 폐지의 내용을 교환 령역에서 읽게 한다. 

6. 폐지서술자의 주소를 반환한다. 
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3) rw_swap_page_nolock () 함수 

핵심부가 교환령역에서 폐지를 읽기만 하고 그 내용을 교환캐쉬에 넣지 않으려는 경 
우가 있다. swaponO 체계호출을 봉사하는 경우 이런 일이 발생한다. 핵심부는 
swap_header 를 포함하는 교환령역의 첫번째 패지를 읽고 즉시 해당 페지틀을 버린다. 
핵심부가 교환령역을 활성화하는 중이기때문에 다른 프로쎄스가 페지를 교환령역에 교환 
하여 넣기 또는 교환하여 내보낼수 없다. 따라서 폐지슬로트에 대한 접근을 막을 필요가 
없 다. rw_swap_page_nocache () 함수는 변수로 입 출력 연산의 류형 (READ 또는 
WRITE) , 교환하여 내보낸 폐지식별자，패지틀주소(이미 잠그기가 걸린)를 포함한다. 
이 함수는 다음 연산을 실 행한다. 

1. 변수로 전달받은 폐지틀의 폐지서술자를 얻는다. 

2. 페지서술자의 swapping 마당을 swapper_space 객체의 주소로 설정한다. 4 단 
계 에 서 sync_page 메 쏘드를 실 행 하기 때문이 다. 

3. 입출력교환연산을 시작하기 위해 rw_swap_page_base() 를 호출한다. 

4. wait_on_page () 를 호출하여 입출력 자료전송이 완료될 때까지 기 다린다. 

5. 폐지의 잠그기 를 해제한다. 

6. 패지서술자의 mapptog 마당을 NULL 로 설정하고 되돌이한다. 

5. 페지를 교환하여 내보내기 

뒤에 나오는《폐지틀비우기》에서 폐지가 교환하여 내보내는 과정에서 어떤 일을 하 
는지 설명한다. 이절의 시작부분에서 지적한것처럼 폐지를 교환하여 내보내는것은 최후 
의 수단이며 기억기를 제거하는 여러가지 일반적인 기법중 하나이다. 여기서는 핵심부가 
교환하여 내보내기를 실행하는 방법을 살펴본다. 교환하여 내보내기는 여러 함수를 련속 
적으로 호출하여 수행된다. 그럼 높은 수준의 함수부터 시작하자. 

swap_out 0 함수는 어 떤 기 억 기 지 역 (zone) 에 서 페 지 를 교환하여 내 보낼 것 인지 나 
타내는 clasMone 변수를 받는다. priority 와 gft_mask 변수는 사용되지 않는다. 

swap_out() 함수는 현재 존재하는 기억기서술자를 탐색하여 각 프로쎄스의 폐지표 
이 참조하는 폐지를 교환하여 내보내려 한다. 함수는 다음 조건중 하나를 만족하면 완료 
한다. 

■ 함수가 SWAP_CLUSTER_MAX (기 본값은 32) 만큼의 폐 지 틀을 해 제 하는데 성 공 
한다. 폐 지 틀을 공유하던 모든 프로쎄스의 폐지표에서 제거되 면 해 당 페지 틀은 해제 된것 
이다. 

• 함수가 기억기서술자를 n 개 탐색하였다. 여기서 n 은 함수가 시작할 때의 기억기 
서술자목록의 길이다. 

모든 프로쎄스가 공평하게 swap_out() 으로 인한 손실을 분담하도록 함수는 마지막 
호출에서 참조한 기억기서술자부터 탐색을 시작한다. 이 기억기서술자의 주소를 대역변 
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수 swap_mm 에 저장한다. 

람색 하면서 검사하는 각 기억 기서 술자 mm 에 대해 swap_out() 함수는 mm- 
>mm_users 사용계 수기 를 증가시 켜 서 교환알고리 듬이 처 리 하는동안 기 억 기 서 술자가 목 
록에 서 사라지 는것 을 방지 한다. 그러고 swap_out() 은 기 억 기 서 술자 주소 mm 기 억 기 지 
역 clasMone , 해제할 폐지틀의 수를 변수로 전달하여 swap_out_mm() 함수를 호출한 
다. swap_out_mm() 에서 복귀 하면 swap_outO 은 mm_>mm_sers 사용계수기를 감소시 
키 고 목록의 다음기 억 기 서 술자를 분석할지 아니 면 완료할지 결정 한다. 

swap_out_mm() 은 기억기서술자를 소유한 프로쎄스의 함수가 해제한 페지의 수를 
반환한다. swap_out() 함수는 이 값을 함수실행시작부터 얼마나 많은 폐지를 해제했는 
지 세 는 계 수기 값을 변경 하기 위해 사용한다. 계 수기 가 SWAP_CLUSUET_ 에 이 르면 
swap_out() 은 완료한다. 

swap_out_mm 0 함수는 변수로 전달받은 기억기서술자 mm 을 소유한 프로쎄스의 
기억기령역을 람색한다. 보통 이 함수는 mm->mmap 목록의 첫번째 기억기령역 객체를 
분석 하기 시 작한다. (이 목록은 시 작선형 주소순서 로 정 렬 되 여 있 다. ) 그러 나 mm 이 이 전 
swap_out() 호출에서 분석한 기억기령역이라면 swap_out_mm () 은 첫번째 기억기령역 
부터 다시 시작하지 않고 이전의 호출에서 마지막으로 분석한 선형주소를 포함하는 기 억 
기 령 역에서 시작한다. 이 선형주소는 기 억기서술자의 swap_address 마당에 저장되 여있 
다. 프로쎄스의 모든 기 억기 령역을 분석 했으면 이 마당의 값은 TASK_SIZE 가 된다. 

swap_out_mm 0 은 기억 기 서 술자 mm 을 소유한 프로쎄 스의 각 기억 기령 역에 대해 
서 아직 해제하지 않은 폐지의 수, 분석할 첫번째 선형주소, 기억기령역객체，기억기서 
술자를 변수로 swap_out_vma() 함수를 호출한다. swap_out_vma() 는 기억기령역에 
속한 폐지중 해제한 페지의 수를 반환한다. swap_out_mm() 의 순환은 요청한 페지수만 
큼 폐지를 해제했거나 모든 기억기령역을 검토할 때까지 계속된다. 

swap_out_vma() 함수는 기 억기령역을 교환할수 있는지(례를 들면 

VM_RESERVED 가 0 인지) 검사한다. 그러고 기억기령역에 있는 선형주소를 가리키는 
프로쎄스의 폐지대역등록부 (p a g e Global Directory) 의 모든 입구점을 검토하는 순차 
적인 단계를 시작한다. 각 입구점에 대해서 swap_out_pgd() 함수를 호출하고 이 함수 
는 다시 기억기령역의 주소구간에 대응하는 폐지중간등록부 (Page Middle Directory) 
의 모든 입구점을 차례로 검토한다. swap_out_pgd() 는 각 입구점에 대해 
swap_out_pmd() 함수를 호출하여 기억기령역의 페지를 참조하는 페지표에 담긴 모든 
입구점을 검토한다. 또한 swap_out_pmd() 는 try_to_swap_out() 함수를 호출하여 마 
침내 폐지에 대한 교환하여 내보내기를 시도한다. 보통 이 함수호출의 련속은 요청한 수 
만큼 페지 틀을 해제 하면 즉시 완료한다. 
trv_to_swap_out 0 함수 

try_to_swap_out() 함수는 주어진 폐지틀을 버러거나 그 내용을 교환하여 내보내기 
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함으로써 주어진 폐지틀을 해제하려고 한다. 함수는 폐지를 해제하는데 성공하면 1, 실 
패하면 0을 반환한다. 폐지해제 ( release ) 란 페지를 공유한 모든 프로쎄스의 페지표에서 
해당 폐지틀에 대한 참조를 제거하는것을 의미한다. 이 경우 페지틀이 반드시 형제체계 
로 반환될 필요는 없다. 례를 들어 교환캐쉬가 계속 참조할수 있다. 

이 함수의 변수는 다음과 갈다. 
mm 

프로쎄 스서 술자주소 
vma 

기억기령역객체주소 
address 

페지의 제일처음의 선형주소 
page_table 

address 를 배 치 한 페 지 표입 구점 주소 
page 

페 지 서 술자주소 
classzone 

페지를 교환하여 내보내는 기억기지역 

try _ to _ swap _ out () 함수는 페지표 입구점에 포함된 Accessed 와 Dirty 기발을 사 
용한다. 정규폐지화에서 언급한것처럼 Accessed 기발은 CPU 의 폐지화유니트에서 각 
읽기쓰기접근에 대 해 자동으로 설정 하고 Dirty 기 발은 각 쓰기접근에 대 해 자동으로 설 
정한다. 이 두 기 발은 기 본적 인 하드웨 어 지 원을 제 공하여 핵 심 부가 단순한 LRU 교체알 
고리듬을 실현할수있도록 한다. 

try _ to _ swap _ out () 은 서로 다른 응답을 요구하는 서로 다른 상태을 반드시 인식해 
야 하지만 응답은 모두 갈은 기본연산을 공유한다. 함수는 다음과 같은 단계를 수행 한다. 

1. page _ table 입구점의 Accessed 기발을 검사한다. 기발이 1이면 폐지를 젊은것 
(최근에 접근한것)으로 간주한다. 이 경우 Accessed 기발을 0으로 만들고 
mark _ page _ accessed () 를 호출하고(뒤 에 나오는《 LRU 목록》참고) 0을 반환한다. 
이 검사를 통해 페지는 이전 try _ to _ swap _ out () 호출이후로 폐지에 접근한 사실이 없어 
야만 교환하여 내보낼수 있다. 

2. 기 억기 령 역 에 잠그기 가 걸 려있으면 ( MV _ LOCKED 기 발이 설정 되 여있음) 기 억기 
령역에 대해 mark _ page _ accessed () 를 호출하고 0을 반한한다. 

3. page -> flags 마당의 PG _ active 기발이 설정되여있으면 페지는 자주 사용되고있 
으며 교환하여 내보내면 안된다. 함수는 0을 반환한다. 

4. 폐지가 clawzone 변수가 나타내는 기억기구역에 속하지 않으면 0을 반환한다. 

5. 패지 에 잠그기를 걸려고 시도한다. 이미 폐지 에 잠그기가 걸려있으면 
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( PG_locked 기 발이 설정 되 여있음) 이 폐지는 다른 입출력 자료전송에 포함되 여있으므 
로 폐지를 교환하여 내보낼수 없다. 함수는 0을 반환한다. 

6. 이제 함수는 폐지를 교환하여 내보낼수 있다. page_table 이 가리키는 페지표입구 
점을 0 으로 설정하고 flush_tlb_page() 를 호출하여 대응하는 TLB 입구점을 무효화한다. 

7. 페 지 표입구점의 불결한 기 발이 설정 되 여있으면 set _ page _ dirty () 함수를 호출하 
여 폐지서술자의 PG _ dirty 기 발을 설정한다. 그리고 이 함수는 page -> mapping 이 참조 
하는 addressss _ space 객체의 dirtys _ pages 목록에서 페지를 이동하고 i 마디 page - 
> mapping -〉 host 를 불결한것으로 표시한다. (《 address_space 객체에 있는 폐지서술자 
목록》참고) 

8. 폐지 가 교환캐쉬 에 속해있으면 다음과 같이 실행 한다. 

a. page->index 에서 교환하여 내보낸 폐지의 식별자를 얻는다. 

b . swap _ duplicate () 를 호출하여 페지슬로트색인값이 유효한지 검사하고 

swap _ map 의 대응하는 사용계수기를 증가시 킨다. 

c . 교환하여 내보낸 폐지식별자를 page _ table 이 가리키는 페지표입구점에 기록한다. 

d . 기억기서술자 mm 의 rss 마당을 감소시킨다. 

e . 페지에 대한 잠그기를 해제한다. 

f. 페지사용계수기 page->count 를 감소시킨다. 

g . 폐지를 아무 프로쎄스에서도 참조하지 않으면 1을 반환한다. 그렇지 않으면 0을 
반환한다. 다른 프로쎄 스의 페 지 표를 탐색할 때 폐 지 틀이 이 미 교환하여 내 보내 졌으므로 
함수는 새로운 폐지슬로트를 할당할 필요가 없다. 

9. 페지가 교환캐쉬에 없다. 폐지가 어떤 address _ space 객체에 속하는지 검사한 
다. ( page -> mapping 마당이 NULL 이 아니 다.) 이 객체에 속한다면 폐지는 공유파일기 
억 기 배 치 에 속해있 으며 이 경 우 함수는 8 d 단계 로 이 동하여 폐 지 틀을 해 제 하고 대 응하 
는 페지표입구점을 NULL 로 유지한다. 페지가 교환령역에 저장되지 않더라도 프로쎄스 
의 패지틀참조를 해제할수 있다. 폐지는 디스크에 영상을 가지고있으며 필요하다면 이 
함수는 이미 7단계에서 영상에 대한 변경을 시작한다. 그리고 페지캐쉬가 계속 폐지를 
소유하고있 으므로 페 지 틀은 형 제 체 계 로 반환되 지 않는다. (《 폐 지 캐 쉬 관련 폐 지 서 술자마 
당》참고) 

10. 함수가 여기에 이르면 페지는 교환캐쉬에 없고 addrcss_space 객체에 속하지 
도 않는다. 함수는 PG_dirty 기발의 상태를 검사한다. 0 이면 함수는 8d 단계로 이동하 
여 폐지틀을 해제하고 대응하는 페지표입구점을 NULL 로 유지한다. 프로쎄스가 폐지틀 
에 쓰기를 한적이 없으므로 폐지의 내용을 교환령역에 저장할 필요가 없다. PG_dirty 
기발이 0이고 페지가 디스크에 영상을 가지지 않거나 폐지가 비공개기억기배치에 속한 
경우 이 기발은 초기화되지 않으므로 핵심부는 이 경우를 판단할수 있다. 프로쎄스가 같 
은 폐지를 반복해서 접근하면 핵심부는 요구폐지화기법을 사용하여 폐지오유를 처리한 
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다 . ( 《 요구페 지 화》참고) 새 토운 페 지 틀은 해 제 된 페 지 틀에 저 장된 자료로 채 워 진다. 

11. 함수가 여기에 이르면 페지는 교환캐쉬에 없고 디스크에 영상을 가지지 않으며 
불결하다. 함수는 폐지가 완충기를 가지고있는지 검사한다.(폐지는 완충기폐지이며 
page->buffers 마당이 NULL 이 아니다.) 이 경우 함수는 페지표항목의 원래내용을 복 
구하고 페지의 잠그기를 해제하고 0을 반환한다. 페지가 address _ space 객체에 속하지 
않고 디스크영상도 없으면서 어떻게 완충기를 가질수 있는가? 사실 이런 경우는 흔하지 
않다. 례를 들면 방금 크기가 0으로 설정된 ( truncate ) 파일의 부분을 배치하고있는 폐 
지 이다. 이 경우 try _ to _ swapout () 은 아무 일도 하지 않는다. 

12. 여기에 이르면 폐지는 교환캐쉬에 없고 디스크에 영상을 가지지 않으며 불결하 
다. 함수는 반드시 이 폐지를 새로운 폐지슬로트에 교환하여 내보내야 한다. 
get _ swap _ page () 를 호출하여 여유페지슬로트를 활성화된 교환령역중 하나에 할당한다. 
여유폐지슬로트가 없으면 페지표입구점의 원래 내용을 복구하고 폐지에 대한 잠그기를 
해제 하고 0을 반환한다. 

13. add _ to _ swap _ cache 0를 호출하여 페지를 교환캐쉬에 추가한다. 다른 핵심부 
조종경로가 폐지를 교환하여 넣기하려는 중이면 이 함수가 실패할수 있다. 다음에 보지 
만 다른 프로쎄스가 폐지슬로트를 참조하지 않을 때도 실패하는 경우가 있다. 이 경우 
swap _ free () 를 호출하여 폐지슬로트를 해제하고 12단계에서 재시작한다. 

14. 패지의 PG _ uptodate 기발을 설정한다. 

15. add _ to _ swap _ cache () 가 PG _ dirty 기발을 초기화했으므로 set _ page _ dirty () 
함수를 다시 호출한다. (앞에 있는 7 단계 참고) 

16. 8 c 단계로 이동하여 교환하여 내보낸 폐지식별자를 페지표입구점에 넣고 폐지틀 
을 해 제한다. 

try _ to _ swap _ out () 함수는 입출력자료전송의 활성화를 위해 rw _ swap _ page () 를 
직접 호출하지 않는다. 대신 필요하다면 폐지를 교환캐쉬에 삽입하고 폐지를 불결한것으 
로 표시한다. 뒤에 나오는 《 slirink _ cache () 함수》에서 보지만 핵심부는 불결한 페지 
를 소유한 address _ space 객체의 writepage 메 쏘드를 호출해서 주기적으로 디스크캐 쉬 
를 흘리기하여 디스크에 쓴다. 

앞서《교환캐쉬》에서 설명한것처럼 교환캐쉬에 속한 패지의 address_space 객체 
는 swapper_space 에 저장된 특수한 객체이다. writepage 메 쏘드는 

swap _ wfitepage () 함수가 실현하며 이 함수는 다음을 수행한다. 

1. 페 지 가 어 떤 프로쎄 스의 페 지 표에 도 포함되 여있지 않음을 검 사한다. 아무 표에 
도 포함되여있지 않으면 페지를 교환캐쉬에서 제거하고 교환페지슬로트를 해제한다. 

2. 그렇지 않으면 폐지에 대해 WRITE 명령을 지정하여 rw _ swap _ page () 를 호출 
한다. ( 《 rw _ swap_page () 함수》참고) 
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6. 폐 지교환하여 넣 기 

프로쎄스가 자기의 주소공간에 있는 폐지중에서 디스크에 교환하여 내보낸 폐지를 
참조하려고 하면 교환하여 넣기를 해야 한다. 페지오유례외조종기는 다음 조건을 만족할 
때 교환하여 넣 기 연산을 시 작한다. (《 주소공간안의 잘못된 주소 처 리 하기》참고) 

■ 례외를 발생시 킨 주소를 포함하는 폐지가 유효하다. 즉 이 페지가 현재프로쎄스의 
기억기령역에 속한다. 

■ 페지가 기억기에 없다. 즉 페지표입구점의 Present 기발이 지워졌다. 

• 폐지에 대응하는 폐지표입구점이 NULL 이 아니다. 즉 교환하여 내보낸 폐지식별 
자를 가지고있다. 

《 요구페지화 》 에서 설명한것처럼 do _ page _ fault () 례외조종기가 호출한 
handle _ pte _ fault () 함수는 페지표입구점이 NULL 이 아닌지 검사한다. NULL 이 아니 
면 해당 페지를 교환하여 넣기하려고 do _ swap _ page () 함수를 호출한다. 

1) do _ swap _ page () 함수 
do _ swap _ page () 함수는 다음변수를 받는다. 
mm 

페지 오유례외 를 발생 시 킨 프로쎄 스의 프로쎄 스서 술자주소 
vma 

address 를 포함하는 령역의 기억기령역서술자주소 
address 

례외를 발생시킨 선형주소 
page_table 

address 를 배치하는 페지표입구점주소 
orlg_pte 

address 를 배치하는 페지표입구점의 내용 
write_access 

접근요청 이 읽기요청 인지, 쓰기요청 인지 나타내는 기발 

다른 함수들과 달리 do _ swap _ page () 함수는 절대로 0을 반환하지 않는다. 폐지가 
이미 교환캐쉬에 있으면 1을 반환하고 폐지를 이미 교환령역에서 읽었으면 2를 반환하 
고 교환하여넣기를 실행하는 도중에 오유가 발생했으면 -1 을 반환한다. 이 함수는 다음 
단계를 수행한다. 

1. 기 억기서술자의 page _ table _ lock 스핀잠그기를 해제 한다.(이 함수를 호출한 
hand 1 e _ pte_fau 1 10 에 서 얻 은 잠그기 이 다. ) 

2 . orig _ pte 에 서 교환하여 내보낸 페지 식별 자를 얻 는다. 

3. lookup _ swap _ cache () 를 호출하여 교환하여 내보낸 패지식별자에 대응하는 페 
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지가 이미 교환캐쉬에 있는지 검사한다. 폐지가 교환캐쉬에 있으면 6단계로 이동한다. 

4. swapin_readahead() 함수를 호출하여 교환령역에서 최대 2n 폐지의 그를을 읽 

는다. 여 기서 n 은 page_cluster 변수에 저 장되 여있고 보통 3 이 다. 

read_swap_cache_async() 함수를 호출하여 각 페지를 읽는다. 

5. read _ swap _ cache _ async () 를 다시 호출하여 폐지 오유를 발생시 킨 프로쎄스가 
접근한 폐지만 교환하여 넣기한다. 이 단계는 불필요하게 증복된것처럼 보이지만 실제로 
는 그렇지 않다. swapin _ readahead () 함수는 page _ cluster 가 0으로 설정되였거나 결 
함이 있는 패지슬로트 ( SWAP _ MAP _ BAD ) 를 포함하는 폐지의 그룹을 읽으러 다 요청 한 
페지를 읽는데 실패할수도 있다. 만약 swapin _ readahead () 가 성공했으면 다시 
read _ swap _ cacheasync () 를 호출하더라도 페지를 교환캐쉬에서 발견하고 빨리 함수를 
끌낼수 있다. 

6. 여 러 시도에도 불구하고 요청한 폐지 가 교환캐쉬 에 추가되지 않으면 이 프로쎄 
스의 복제를 처 리하는 다른 핵 심부조종경 로가 이미 요청한 폐지를 교환하여 넣기했을수 
도 있다. 이 경우를 검사하기 위해 림시로 page_table_lock 스핀잠그기를 얻어서 
page_table 이 가리키는 입구점을 orig_pte 와 비교한다. 이것들이 다르면 페지를 이미 
다른 핵심부스레드가 교환하여 넣기한것 이므로 1을 반환한다. 그렇지 않으면 -1 을 반환 
한다. (실패) 

7. 여기에 이르면 페지가 교환캐쉬에 있다. mark _ page _ acccssed () 를 호출하고 
(뒤에 나오는 《 LRU 목록》참고) 폐지에 잠그기를 건다. 

8. page _ table _ lock 스핀잠그기를 얻는다. 

9. 이 프로쎄스의 복제를 처리하는 다른 핵심부조종경로가 요청한 폐지를 교환하여 
넣기했는지 검사한다. 이 경우 page _ table _ lock 스핀잠그기를 해제하고 폐지의 잠그기 
를 풀고 1을 반환한다. 

10. swap_free() 를 호출하여 입구점 (entry) 에 대응하는 폐지슬로트의 사용계수기 
를 감소시 킨다. 

11. 교환패쉬가 최소한 50% 찼는지 검사한다 (nr_swap_pages 가 

total_swap_pages 의 절반보다 작은 경우). 검사한것이 맞으면 오유를 일으킨 프로쎄스 
(또는 이 프로쎄스의 복제)만이 이 패지를 소유하고있는지 검사한다. 이 경우 패지를 교 
환캐쉬에서 제거한다. 

12. 프로쎄스의 기억기서술자의 rss 마당을 증가시킨다. 

13. 페지의 잠그기를 해제한다. 

14. 페지표입구점을 갱신하여 프로쎄스가 폐지를 발견할수 있도록 한다. 함수는 요 
청한 페지의 물리적주소와 기억기령역의 vm_page_prot 마당의 보호비트를 page_table 
이 가리키는 폐지표입구점에 기록한다. 그리고 오유를 일으킨 접근이 쓰기 이고 오유를 
일으킨 프로쎄스가 폐지의 유일한 소유자면 함수는 불결한 기발과 읽기/쓰기기발도 설 
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정 하여 불필요한《쓰기 복사》오유를 방지 한다. 

15. mm -> page _ table _ lock 스핀잠그기를 해제하고 1 또는 2를 반환한다. 

7. 폐지틀 회수하기 

Linux 의 가상기억기보조체계는 전체 핵심부에서 가장 복잡하고 성능에 중요한 구 
성 요소이 다. 

앞에서 핵심부가 어떻게 사용중 또는 여유폐지틀을 관리하여 동적기억기를 처리하는 
지 설명하였다. 또한 사용자방식의 각 프로쎄스는 자신의 선형주소공간이 있으므로 폐지 
틀이 프로쎄스에 가능한 늦게 할당됨을 설명하였다. 그러고 느린 블로크장치의 자료를 
캐 쉬 하기 위 해 동적기 억기를 사용하는것도 설명 하였다. 

여기서는 폐지틀회수를 설명하면서 기상기억기보조체계에 관한 설명을 마친다. 앞에 
서 살껴본것처럼 캐쉬체계는 페지틀을 계속 획득하지만 해제하지는 않는다. 사실 캐쉬체 
계는 프로쎄스가 언제 어떤 캐쉬자료를 사용할지 알수 없으므로 어떤 캐쉬페지를 해제해 
야 할지 알수가 없다. 그리고 앞에서 설명한《요구폐지화》기법으로 하여 사용자방식프 
로쎄스는 실행과정에서 폐지틀을 획득하게 되지만 요구페지화에도 프로쎄스가 더는 사용하 
지 않는 폐지틀을 해제하도록 할 방법이 없다. 이 문제의 해결책이 폐지틀 회수기법이다. 

핵심부개발자에게 가장 어 려운것은 사용할 폐지틀이 더는 남아있지 않은 상태 이 다. 
이 상태가 발생하면 핵심부는 쉽게 해결할수 없는 련속된 기억기요청에 빠지게 된다. 페 
지틀을 해제하기 위해서 핵심부는 반드시 그 자료를 디스크에 기록해야 한다. 그러나 핵 
심부가 이 연산을 처리하려면 다른 폐지틀이 펼요하다. (례를 들어 입출력자료전송을 위 
한 완충기머리부를 할당해야 한다.) 여유폐지틀이 없기때문에 어떤 폐지틀도 해제할수 
없다. 이 상태에서 해결책은 한가지뿐이다. 사용자방식프로쎄스 하나를 희생해서 해당 
프로쎄스가 사용하던 폐지틀들을 회수하는것이다. 물론 이 해결책이 체계파괴를 막을수 
는 있겠지만 사용자립장에서는 아주 불쾌할것 이 다. 패지틀 회수의 목표는 여유폐지틀을 
몇 개 유지 하여 핵 심부가《 기 억 기 부족》상태 에 서 안전하게 회 복하는것 이 다. 이 를 위 해 
서 디스크캐쉬를 아무렇게나 지우거나 사용자방식프로쎄스에 너무 많은 부담을 주면 안 
된다. 그렇게 하면 체계성능이 너무도 나빠질것 이다. 사실 가상기 억기보조체계개 발의 가 
장 어려운 부분이 탁상형(이 경우에 기 억기요청은 제한적 이 다.)과 자료기지봉사기갈은 
고성 능봉사기 (기 억기 요청 이 아주 많다. ) 량쪽에 서 만족할만한 성 능을 나타내는 알고리 듬 
을 찾는것 이 다. 

다행히도 좋은 폐지틀회수알고리듬을 찾는것은 리론의 도움이 거의없이 실험 에 의존 
하는일 이 다. 이 상태는 프로쎄스의 동적 인 우선순위를 결정하는 요소를 평가하는것과 비 
슷하다. 기 본목적 은 파라메터 를 조종해 서 좋은 성 능을 엄 는것 이 고 왜 잘 동작하는지 알 
아내는것이 아니다. 《 이 새로운 접근방법을 시도해서 어떤 일이 벌어지는지 보자》는 
식이 될 때가 많다. 실험적인 접근방법의 부작용은 코드변화가 쉽게 일어난다는것이 
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다.(심지 어 안정 판본인 짝수판본에서도 일어 난다. ) 

1) 폐지틀회수 알고리듬의 개요 

자세히 설명하기 전에 Linux 의 폐지틀 회수를 간단히 보자. (나무의 잎에 너무 가 
까이 다가가면 전체 숲을 놓칠수 있다.) 

페지틀은 두가지 방법으로 회수할수 있다. 

• 캐 쉬 (기 억 기 캐 쉬 또는 디 스크캐 쉬 ) 에 있는 사용되 지 않는 페 지 틀을 회 수한다. 

• 프로쎄스의 기억기령역 또는 IPC 공유기억기령역 (《IPC 공유기억기》참고)에 속하 
는 페지를 회수한다. 

물론 알고리듬은 폐지틀의 차이를 고려해 야 한다. 례를 들면 디스크캐쉬보다 기억기 
캐쉬 에서 페지틀을 회수하는것 이 더 바람직하다. 디스크캐쉬의 폐지는 블로크디스크장치 
에서 상대적으로 많은 비용을 들여 읽어들인 자료를 포함하기때문이다. 

그리고 알고리듬은 각 페지틀에 대한 접근회수를 관리해야 한다. 어떤 페지에 오래 
동안 접근하지 않았다면 가까운 미래에 접근할 확률이 낮다. 반면에 최근 어떤 폐지에 
접근하였다면 계속 접근할 확률이 높다. 이것도 《하드웨어캐쉬》에서 설명한 지역성 
(locality) 규칙의 응용례다. 

따라서 폐지틀 회수알고리듬은 여러가지 경험규칙을 섞은것이다. 

• 캐쉬검사순서에 대한 주의깊은 선택 

■ 오래된 순서에 따른 페지의 순서(최근에 사용한 폐지보다 최근에 사용하지 않은 
폐지를 먼저 해제한다.) 

• 페지상태에 따른 폐지의 구분(례를 들면 불결한 페지보다 불결한것이 아닌 폐지를 
교환하여 내보내는것 이 더 좋다. 불결한것 이 아닌 경우에는 디스크에 쓸 필요가 없다.) 

페지틀회수를 시작하는 주요함수는 try_to_free_pages() 이 다. 핵심부가 기 억기 할당 
에 실패할 때 마다 이 함수를 호출한다. 례 를 들면 다음과 같다. 

• grow_buffers 0 함수가 새 로운 완충기 페 지 할당에 실패 하거 나 create_buffers() 
함수가 완충기패지를 위한 완충기머 리부할당에 실패한 경우. ( 《 완충기패지》와 
《getblkO 함수》참고) 

이 경우 핵심부는 free_more_memory() 를 호출하고 이 함수가 try_to_free_ 
pages 0를 호출한다. 

• page_alloc() 함수가 주어진 기 억기지역 (zone) 목록에서 페지틀그를할당에 실패한 
경우. (《 형제체계 알고리 듬》참고) 모든 기 억기구역서술자는 pages_min 마당을 포함한 
다. 이 마당은《기 억기부족》상태에 대처하기 위해 여유상태로 남아있어야 하는 폐지틀 
의 수를 니타낸 다. 목록의 어 떤 구역 에 도 여 유패 지 틀의 최 소량을 만족하면서 요청 을 만 
족하기에 충분한 여유기억기가 없다면 핵심부는 balance_classzone() 함수를 호출하고 
이 함수가 try_to_free_pages() 함수를 호출한다. 

■ kswapd 핵심부스레드가 어떤 기억기지역의 여유폐지틀수가 page_low 이하로 떨 
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어진 사실을 발견했을 때. (뒤에 나오는《 kswapd 핵심부스레드》참고) 

try_to_free_pages() 함수의 핵심은 shrink_caches() 함수이 다. 이 함수는 변수로 
goal 을 받는다. goal 은 회수할 폐지틀의 수이다. 이 함수는 이 목표에 도달하면 즉시 
중단한다. sMink_caches() 의 일을 돕기 위해서 동적기억기의 모든 폐지는 활성목록과 
비 활성 목록이 라는 두 그룹으로 나눈다. 이 것 들을 LRU 목록이라고 부르기 도 한다. 활성 
목록은 최근에 사용한 페지를 포함하고 비활성목록은 한동안 사용하지 않은 패지를 포함 
한다. 마땅히 비활성목록에서 폐지를 회수한다. 종종 두 목록사이에서 폐지가 이동하기 
도 한다. slirink_caclies 0 함수는 다음 함수들을 차례로 호출한다. 
kmem_cache_reap 0 

스랩캐 쉬 에서 빈 (empty) 스램 를 제거 한다. 
refill_inactive() 

페지를 활성목록에서 비활성목록으로 또는 반대로 옳긴다. 
shrink_cache() 

폐지캐쉬에 포함된 비활성페지를 디스크에 기록하여 폐지틀을 해제하려고 한다. 
shrink 一 dcache_memory () 

등록부입 구점 캐 쉬 에 서 입 구점 을 제 거 한다 . 
shrink_cache_memory () 
i 마디캐쉬에서 입구점을 제거한다. 

이제 폐지틀회수알고리듬의 여러 구성요소를 자세히 알아보자. 

2) LRU 목록 

페지의 활성목록과 비 활성목록은 폐지틀회수알고리 듬의 핵심 자료구조이 다. 이 두 2 
중련결목록의 머리부는 각각 active_list 와 inac 仕 ve_list 변수에 저장된다. 
nr_ac 吐 ve_pages 와 nr_ac 社 ve_pages 변수는 두 목록의 페지수를 저장한다. 
pagemap_lru_lock 스핀잠그기는 SMP 체계에서 두 목록에 대한 동시접근을 방지한다. 

어떤 폐지가 LRU 목록에 속하면 폐지서술자의 PG_lru 기발을 설정한다. 그리고 페 
지가 활성목록에 속하면 PG_acWve 기발을 설정하고 비활성목록에 속하면 PG_active 기 
발을 지운다. 페지서술자의 lru 마당은 LRU 목록의 다음과 이전요소를 가리키는 지적 
자를 저장한다. 

LRU 목록을 처 리 하기 위한 다음과 갈은 보조함수와 마크로가 있 다. 
add_page_to_ad;ive_list 

PG_active 기발을 설정하고 폐지를 활성목록의 머리부에 추가하고 

nr_active_pages 를 증가시킨다. 
add_page_to_inactive_list 

페지를 비활성목록의 머리부에 추가하고 nr_inac 社 ve_pages 를 증가시킨다. 
del_page_from_active_list 
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페지를 활성목록에서 제거하고 PG_active 기발을 지우고 nr_active_pages 를 감소 
시킨 다. 

del ᅳ page_f rom Jnacti ve_list 

페 지 를 비 활성 목록에 서 제 거 하고 nr_inactive_pages 를 감소시 킨다. 

activate_page_nolock () 과 activate_page 0 

페지 가 비활성목록에 있으면 del_page_from_inactive_list 와 add_page_to_activc 
_list 를 호출하여 활성목록으로 옳긴다. active_page() 함수는 페지를 옮기기 전에 page 
map_lru_lock 스핀 잠그기 를 얻 는다. 

1 ru_cache_add () 

페지가 LRU 목록에 없으면 PG_lru 기발을 설정하고 pagemap_lru_lock 스핀잠그 
기를 얻고 add_page_to_inactive_list 를 호출하여 페지를 비활성목록에 추가한다. 

—1 ru_cache_del 0 과 1 ru_cache_del 0 

페지 가 LRU 목록에 있으면 PG_lru 기 발을 지우고 PG_active 기발의 값에 따라 del 
_page_from_activc_list 또는 del_page_from_inactive_list 를 실행한다. lru_cache_d 
el () 함수는 폐지를 제거하기 전에 pagemap_lru_lock 스핀잠그기를 얻는다. 

O LRU 목록 사이의 폐지 이동 

핵심부는 최근에 접근한 폐지들을 활성목록으로 관리하고 회수할 폐지틀을 찾아볼 
때 활성목록을 탐색하지 않는다. 반대로 핵심부는 오래동안 접근하지 않은 폐지들을 비 
활성목록으로 관리한다. 물론 폐지를 접근함에 따라 폐지를 비활성목록에서 활성목록으 
로 또 반대 로 옮겨 줘야 한다. 

물론 페지의 활성과 비 활성 이라는 두가지 상태 가 모든 접근패 턴을 나타내 는데 충분 
하지는 않다. 례를 들어 기록프로쎄스가 자료를 페지에 한시간에 한번씩 기록한다고 하 
자. 이 폐지는 대부분의 시간에는 비활성상태지만 한번 접근하면 활성상태로 바뀌고 앞 
으로 한 시간동안 접근하지 않을것임에도 불구하고 대응하는 폐지틀을 회수하지 못하게 
한다. 물론 핵심부가 사용자방식프로쎄스의 행동을 예측할수 있는 방법 이 없으므로 이 
문제에 대한 일반화된 해결책은 없다. 그러나 한번 접근할 때마다 폐지의 상태가 바뀌는 
것은 문제가 있어보인다. 

어떤 폐지를 비활성목록에서 활성목록으로 옮기는데 필요한 접근회수를 두배로 하기 
위해 페지서술자의 PG_referenced 기발을 사용한다. 이 기발은 어떤 페지를 활성목록 
에서 비활성목록으로 옮기는데 필요한 잘못된 접근의 수를 두배로 하는데도 사용된다. 
례를 들어 비활성목록의 어떤 페지의 PG_referenced 기 발이 0 으로 설정되여있다고 하 
자. 처음으로 패지에 접근하면 이 기발의 값을 1로 바꾸지만 폐지를 계속 비활성목록 
에 놓아둔다. 두번째로 폐지 에 접근하면 이 기발이 설정되여있음을 알게 되고 폐지를 활 
성목록으로 옳긴다. 그러 나 두번째 접근이 첫번째 접근이후 일정 한 시간간격안에 일어 나 
지 않으면 패지틀회수알고리듬은 PG_reference 기발을 지운다. 
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그림 4-24 에서 볼수 있는것처럼 핵심부는 mark_page_accessed() 와 
refill_inactive() 함수를 사용하여 폐지를 LRU 목록사이에서 옳긴다. 그림에서 
PG_active 기발은 폐지가 어떤 LRU 목록에 포함되였는지 나타낸다. 



Add_to_page_cache() 


- — — — — — Mark_page_accessedO 

.. ■■.■■■■■■■...卜 RefillinactiveO 

그림 4-24. LRU 목록사이의 페지이동 

핵심부는 어떤 페지 에 접근한것을 표시 하기 위해 언제 나 mark_page_accessed() 함 
수를 사용한다. 핵 심 부가 사용자방식프로쎄 스파일체 계 계 층 또는 장치구동프로그람이 어 
떤 폐지를 참조한다고 판단하면 언제나 이 함수를 호출한다. 례를 들어 다음과 같은 경 
우 mafk_page_accessed 0를 호출한다. 

• 요구페 지 화 (demand pageing) 에 의 해 닉 명 페 지 를 적 재 할 때 . ( 《 요구페 지 화》에 
서 설명한 dc 匕 anonymous_page() 함수에 의해 실행된다.) 

• 디스크에서 블로크를 읽을 때. (《블로크와 폐지 입출력연산》에서 설명한 bread () 
함수에 의해 실행된다.) 

■ 요구폐지화에 의해 기억기배치파일의 폐지를 적재할 때. (《기억기배치의 요구페지 
화》에서 설명한 filemap_nopage() 함수에 의해 실행된다.) 

.파일에서 한 폐지의 자료를 읽을 때 .( 《 파일에서 읽기 》에서 설명한 
do_genefic_file_read() 함수에 의해 실행된다.) 

■ 페지를 교환하여 넣기할 때. (앞서 살껴본《 do_swap_page 0함수》참고) 

■ 핵심부가 탐색중에 페지표입구점의 Accessed 기발이 설정된것을 발견했을 때 . (앞 
서 살펴 본《 try_to_swap_out 0 함수》참고) 

■ 핵심부가 디스크장치에서 한 페지의 자료를 읽을 때 . (ext2_get_page() 함수에 의 
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해 실행된다.) 

mark_page_accessed() 함수는 다음과 같은 부분코드를 실행한다. 
if (pageActive (page) || ! PageReferenced (page)) 

SetPageRef erenced (page) : 
else{ 

activate_page (page) : 

ClearPageRef erenced (page) : 

} 

그림 4-24 에서 볼수 있는것 처 럼 이 함수는 PG_referenced 기 발이 이미 설정되 여있 
을 때에만 비활성목록에서 활성목록으로 폐지를 옳긴다. 

핵심부는 주기적으로 refill_inactive() 함수를 실행하여 활성목록에 있는 폐지의 상 
태를 검사한다. 이 함수는 활성목록의 끝(목록에서 가장 오래된 폐지)에서 시작하여 각 
페지의 PG_referenced 기발이 설정되 여있는지 검사한다. 이 함수는 기 발이 설정된 폐지 
가 있으면 해당 폐지의 기발을 지우고 폐지를 활성목록의 맨 처음으로 옳긴다. 기발이 
설정되여있지 않으면 폐지를 비활성목록의 맨 처음으로 옳긴다. 이 부분에 해 당하는 코 
드는 다음과 같다. 

if (PageRef erenced (page)) { 

ClearPageRef erenced (page) : 

list_del (&page->lru) : 

list_add (&page-> 1 ru, &active_list) : 

}else{ 

del_page_from_active_list (page) : 
add_page_to_inactive_list (page) : 

SetPageReferenced (page) : 

} 

refillJnactiveO 함수는 비활성목록의 페지를 탐색하지 않는다. 따라서 페지가 비 
활성목록에 있는동안에는 폐지의 PG_referenced 기발은 설정된 상태로 유지된다. 

O try_to_free_pages 0 함수 

try_to_free_pages() 는 페지 틀의 회수를 시작하는 주요함수이 다. 이 함수는 다음과 
같은 변수를 받는다. 
classzone 

회 수할 페 지 틀을 포함하고있는 기 억 기지 역 
gfp_mask 

기발의 집합으로서 그 의미는 alloc_pages() 함수의 경우와 동일하다. (《폐지틀의 
요청 과 해 체》참고) 
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order 

사용되지 않는다. 

이 함수의 목적은 폐지틀 SWAP_CLUSTER_MAX (보통 32) 개 를 해제하는것 이며 
이것을 위 해 shrink_caches 0 함수를 우선순위를 높여가며 반복해서 호출한다. 
try_to_free_pages () 함수는 기본적으로 다음 부분코드와 같다. 

for (priority = DEF_PRIORITY : priority >= 0； priority~) { 
sc. nr_mapped = read_page_state(nr_mapped) : 


MAX/2) { 

sc. nr_scanned = 0； 
sc. nr_reclaimed = 0； 

sc. n〔congested = 0； 

sc. priority = priority； 

shrink_caches (zones, &sc) ； 

shrink_slab(sc. nr_scanned, gfp_mask, lru_pages) : 
if (reclaim_state) { 

sc. n〔reclaimed += rec laim_state-> rec laimed_s lab ； 

reclaim_state->reclaimed_slab = 0； 

} 

if (sc.nr_reclaimed >= SWAP_CLUSTER_MAX) { 

ret = 1； 

goto out； 

} 

total_scanned += sc.nr_scanned； 

total_reclaimed += sc.nr_reclaimed; 

if (total_scanned > SWAP_CLUSTER_MAX + SWAP_CLUSTER_ 

wakeup_bdf lush (laptop_mode ? 0 : total_scanned) ； 

sc. may_writepage = 1; 

} 


if (sc. nr_scanned && priority < DEF_PRIORITY 一 2) 
blk_congestion_wait(WRITE, HZ/10) ； 


if ((gfp_mask 沒 _GFP_FS) && ! (gfp_mask 沒 _GFP_NORETRY) && 
sc. nr_congested < SWAP_CLUSTER_MAX) 
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out_of_memory (gfp_mask) : 

현 재 프로쎄 스의 PF_NOIO 기 발이 설 정 되 여 있 으면 try_to_f ree_pages () 는 
gfp_mask 변수의 _GFp_IO, _GFP_HIGHIO, _GFP_FS 비트를 지운다 . 핵심부는 
페 지 틀회수알고리 듬이 입 출력자료전송을 시 작하지 않게 하려 고 PF_NOI ◦기 발을 설정 한 
다 . 현재 는 사용자방식프로쎄 스가 정 규파일을 디 스크블로크구획처 럼 사용할수 있도록 하 
는 순환장치구동프로그람의 핵 심 부스레 드에 서 만 사용한다 . 

순환은 최 대 DEF_PRIORITY 회수만큼(보통 6 회 ) 반복하며 매 번 감소하는 순환색 
인값을 shrink_caches () 함수에 전달한다 . 더 작은 값이 더 높은 우선순위를 나타내므 
로 매 번 shrink_caches 0 는 페지 틀을 더 심 하게 회수하려고 한다 . 

DEF_PRIORRITY 회수만큼의 반복이 페지틀 SWAP_CLUSTER_MAX 개를 회수 
하는데 충분하지 않으면 핵심부는 심각한 상태 이 다 . 마지막 해결방법은 사용자방식프로 
쎄스 하나를 제거해서 해당 프로쎄스의 모든 폐지틀을 회수하는것이다 . 
out_of_memory () 함수가 이 연산을 수행한다 . 간단히 말해서 초사용자권한이 없고 직 
접 입출력연산을 수행하지 않는 프로쎄스중에서 실행시간이 기장 짧은 프로쎄스를 선택 
하여 제거한다 .( 《직접입출력전송》참고 ) 
o shrink_caches( ) 함수 

shrink_caches () 함수는 여러 보조함수를 고정된 순서로 호출하여 여러 기억기 보조 
체계에서 페지틀을 회수한다 . 호출되는 함수중에는 shrink_cadieO 가 있으며 호출하는 
함수 shrink_caches () 와 흔동하지 말아야 한다 . shrink_caches() 함수는 다음과 같은 
변수를 받는다 . 
classzone 

회수할 폐지틀을 포함하는 기억기지역 . 
priority 

이번 호출의 우선순위 . 폐지틀 회수를 얼마나 세게 할것인지 나타낸다 . 
gfp_mask 

기억기할당기발 . 해제할 폐지틀의 류형과 수행과정에서 핵심부가 시용할수 있는 기 
법을 나타낸다 . (현재 프로쎄스를 차단하거 나 입 출력 전송을 시 작하도록 하는 등 ) 
nr_pages 

목표로 하는 해제할 폐지틀의 수 

이 함수는 nr_pages 와 실제로 회수한 폐지틀수의 차이를 반환한다 . nr_pages 보다 
더 많은 폐지틀을 해제했으면 0 을 반환한다 . 이 함수는 다음과 갈은 작업을 수행한다 . 

1. kmem_caclie_reap 0 을 호출하여 스렘 할당자캐 쉬로부터 폐지 틀을 회수한 
다 . (《 캐 쉬 에서 스램 해 제 하기》참고 ) 

2. kmem_cache_reap () 이 최소 nr_pages 이상의 페지틀을 해제하는데 성공했으면 
0 을 반환한다 . 
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3. refill _ inactlve () 함수를 호출하여 일부 패지를 활성목록에서 비활성목록으로 옮 

긴다. 앞서 《 LRU 목록》에서 설명 한것처 럼 활성목록의 끝에 있는 

페지들의 PG_referenced 기발을 지우고 이전 shrink _ caches () 실행이후 접근한 사실 
이 없는 폐지들을 옮긴다. 옮길 폐지의 수를 refil _ inactive () 에 변수로 전달한다. 다음 
과 갈은 수식을 사용한다. 

ratio = nr_pages * nr _ active_pages / (( nr - inactive_pages + 1) * 2); 

이 수식의 근거는 활성목록의 크기를 대략 폐지캐쉬크기의 2/3정도로 유지하는것이 
다.(역시 실험적 인 수식 이다.) 

4. shrink _ cache () 를 호출하여 비활성목록에서 폐지틀 nr _ pages 개를 회수하려고 
시도한다. 함수가 요청한 수의 폐지틀을 회수하는데 성공하면 0( 요청한 수의 페지틀을 
회수했음)을 반환한다. 

5. 여기에 이르면 shrink _ caches () 는 현재실행에서 목표에 도달할 가능성이 없다. 
그렇지만 여러 디스크캐쉬에서 작은 객체들을 해제하려고 시도하여 이후의 함수호출에서 
작은 객체들을 저장하고있는 폐지틀을 해제하는데 성공할수 있게 한다. 따라서 함수는 
shrink _ dcache_memory () 를 호출하여 등록부입 구점 객체를 등록부입 구점 캐 쉬 에 서 제 거 
하도록 한다.(뒤에 나오는《등록부입구점과 i 마디 캐쉬에서 폐지틀 회수하기》참고) 

6. shrink _ icache _ memory () 를 호출하여 i 마디패쉬에서 i 마디객체를 제거한다.(뒤 
에 나오는《등록부입구점과 i 마디캐쉬에서 패지틀 회수하기》참고) 

7. 핵심부가 디스크할당 ( quota ) 를 지원하는 경우 shrink _ dqcache_memory () 를 
호출하여 디 스크할당캐쉬 에서 객체를 제거한다. (디스크할당에 대 해서는 생 략한다.) 

8. 지금까지 해제한 폐지틀의 수를 반환한다. 

o shrink _ cache () 함수 

shrink _ cache () 함수는 slirink_caches 0 와 같이 nr _ pages , classzone , 
gfp _ mask , priority 를 변수로 받는다. 이 함수는 비활성목록에서 회수할 페지틀을 찾 
는다. 최근에 삽입한 요소가 목록의 머 러부쪽에 있으므로 함수의 탐색은 목록끝부터 역 
방향으로 이루어진다, 

함수는 목적을 이루기 위해 다음과 같이 동작한다. 

■ 아무 프로쎄스에도 속하지 않는 폐지틀을 형제체계로 물려준다. 

• 비활성목록의 람색한 부분에서 프로쎄스에 속한 폐지들이 대부분이면 프로쎄스에 
속한 폐지를 교환하여 내보낸다. 

priority 변수는 이번의 shrink _ cache () 호출에서 람색할 비활성목록의 크기를 조종 
한다. priority 가 6 ( DEF _ PRIORITY , 가장 낮은 우선순위)이면 함수는 목록의 1/6을 
람색한다. 우선순위가 작아지면서 함수는 목록의 더 많은 부분을 람색하며 1( 가장 높은 
우선순위 ) 이 되 면 전체 목록을 탐색한다. 

함수는 시작부분에서 pagemap _ lru_lock 스핀잠그기를 얻고 비활성목록의 페지를 
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역방향으로 순환을 돌면서 우선순위가 나타내는 수의 요소를 람색할 때까지 계속한다. 
람색하는 폐지에 대해 다음과 갈은 작업을 수행한다. 

1. 현재 프로쎄스의 need_resched 마당이 설정되 여있으면 pagemap _ lru_lock 스핀 
잠그기를 해제하여 림시로 CPU 를 풀어주고 scheduleO 을 호출한다. 다시 실행하게 되 
면 다시 스핀잠그기를 얻고 계속한다. 

2. 패지를 비활성목록의 끝에서 머리부부분으로 옳긴다. 이렇게 함으로써 이후의 
shrink _ cache () 호출에서 비활성폐지를 돌아가면서 ( round _ robin ) 검사하도록 한다. 

3. 페지의 사용계수기가 0인지 검사한다. 0이면 목록의 끝에서 다음폐지에 대해 계 
속한다. 사용계수기가 0인 페지는 형제체계에 속해있는것이 바람직하지만 페지틀을 해 
제하기 위해서는 먼저 사용계수기를 감소시키고 폐지틀을 형제체계로 반납한다. 따라서 
페지틀회수알고리듬에서 해제된 페지를 볼수 있는 짧은 시간간격이 존재한다. 

4. 폐지가 clas^one 변수가 나타내는 기억기지역에 속하는지 검사한다. 속하지 않 
으면 이 페지에 대해 동작을 멈추고 목록끝에 있는 다음폐지에 대해 계속한다. 

5. 폐지가 완충기페지가 아니고 사용계수기가 1보다 크거나 페지가 디스크에 영상 
을 가지 고있지 않는지 (mapping 마당이 NULL ) 검사한다. 이 경우 다른 프로쎄스가 페 
지를 참조하고있다는 사실을 사용계수기 에서 나타내므로 폐지틀을 형제체계 로 반납할수 
없다. 함수는 다음 단계를 수행 한다. 

a . 람색한 페지중에 해제할수 없는 폐지의 수를 나타내는 지역계수기를 증가시킨다. 

b . 계수기가 경계값을 넘으면 pagemap_l ru_l ock 스핀잠그기를 해제하고 
swap _ out () 을 호출하여 일부프로쎄스페지를 교환하여 내보내도록 한다. (《페지를 교 
환하여 내보내기》참고) 그러고 해제해야 하는 폐지틀의 수를 반환한다. 경계값은 다음 
두 값중 작은 값이다. 하나는 탐색할 페지수의 1/10이고 다른 하나는 210 -prority * 
해제할 폐지틀수 ( nr_pages 변수)다. 

c . 그렇지 않고 계수기가 경계값을 넘지 않으면 함수는 비활성목록의 끝에서 다음 
페지에 대해 계속한다. 

6. 함수가 여기에 이르면 폐지틀을 형제체계로 반환할수 있다. 함수는 폐지에 잠그 
기를 걸려 고 시도한다. 폐지의 PG_locked 기발이 이미 설정되 여있으면 다음단계를 수 
행 한다. 

a . 폐지의 PG_launder 기발과 gfp_mask 변수의 _ GFP_FS 비트가 둘 다 설정되여 
있으면 wait _ on _ page () 를 호출하여 폐지의 잠그기가 해제될 때까지 잠든다. 
PG_launder 기발은 shrink _ cache () 함수자신이 시작하게 한 입출력자료전송에 폐지가 
포함되면 언제나 설정된다. 

b . 비활성목록의 끝에서 다음폐지에 대해 계속한다. 

7. 이제 폐지에 잠그기가 걸려있다. 폐지가 불결한지 ( PG_dirty 기발이 설정되여있 
는지 ) , 페지 가 디 스크에 영 상을 가지 고있는지 (mapping 마당이 NULL 이 아닌지 )，폐 지 
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캐 쉬만이 폐지를 소유하고있는지 즉 폐지 틀을 실제 해제할수 있는지 검사한다. 모든 조 
건을 만족하고 gfp_mask 변수의 _GFP_FS 비트가 설정 되 여있으면 함수는 다음을 수 
행하여 디스크 영상을 갱신한다. 

a. PG_dirty 기발을 지운다 . 

b. PG_launder 기발을 설정 하여 이후의 shrink_cache() 호출은 입출력 자료전송의 
완료를 기다리도록 한다. 

c. 페지사용계수기를 증가시키고(안전장치) pagemap_lru_lock 스핀잠그기를 해제 
한다. 

d. 페지의 address_space 객체의 writepage 메쏘드를 호출한다. 《불결한 기억기 
배치폐지를 디스크에 흘리기》에서 설명한것처럼 이 메쏘드는 폐지내용을 디스크로 입출 
력 자료전송하는것 을 활성 화한다. 

e. 폐지사용계 수기 를 감소시 키 고 pagemap_lru_lock 스핀잠그기 를 다시 획득한다. 

f. 비활성목록의 끌에서 다음폐지에 대해 계속한다. 

8. 폐지가 완충기패지면 (buffers 마당이 NULL 이 아님) 함수는 폐지에 포함된 완 
충기를 해제하려 고 시도한다. 

다음과 같은 단계 를 실행 한다 . 

a. pagemap_lm_lock 스핀잠그기 를 해 제 하고 폐 지 사용계수기 를 증가시 킨다. (안전 
장치) 

b. try_to_release_page() 함수를 호출한다. 이 함수는 다음을 수행한다. 

- 대응하는 address_space 객체의 releasepage 메쏘드가 정의되 여 있으면 이 메쏘드 
를 실행하여 기록형파일체계에서 완충기에 련결된 조종자료를 해제하도록 한다. 

- 완충기패쉬만이 페지의 완충기를 참고하고있으면 tty_to_free_bu:ffersO 함수를 
호출하여 해 제 하도록 한다. ( 《 완충기 페 지》참고) 

c. try_to_release_page() 가 폐지의 모든 완충기를 해제하는데 실패하면 함수는 
폐지의 잠그기를 해제하고 8 a 에서 증가시킨 사용계수기를 감소시키고 비활성목록의 끝 
에서 다음폐지에 대해 계속한다. 

d. 그렇지 않고 try_to_release_page() 가 페지의 모든 완충기를 해제하는데 성공 
하면 함수는 폐지틀자체를 해제하려고 시도한다. 특히 폐지가 닉명이면(즉 디스크에 영 
상이 없으면)함수는 pagemap_lru_lock 스핀잠그기를 획득하고 페지의 잠그기를 풀고 
페지를 비활성목록에서 제거하고 폐지틀을 형제체계에 반환한다. 함수가 목표로 하는 수 
의 폐지틀을 해제했으먼 스핀잠그기를 해제하고 0을 반환한다. 그렇지 않으면 9단계에 
서 계속한다. 

e. 완충기폐지가 디스크영상을 가지고있으므로 페지캐쉬 에 포함되 여있다. 8a 단계 
에서 증가시킨 사용계수기를 감소시키고 pagemap_lru_lock 스핀잠그기를 얻는다. 그 
리고 다음단계에서 계속한다. 
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9. pagecache_lock 스핀잠그기를 획득한다. 

10. 폐지가 디스크에 영상이 없거나 페지를 참조하는 프로쎄스가 있으면 
pagecache _ lock 스핀잠그기를 해제하고 페지의 잠그기를 해제하고 5 a 단계로 이동한다. 

11. 함수가 여기에 이르면 폐지는 디스크에 영상이 있고 페지를 참조하는 프로쎄스 
가 없으며 완충기를 가지고있지 않으므로 해제할수 있다. 폐지가 불결한지 ( PG _ dirty 기 
발이 설정되였는지) 검사한다. 불결하면 폐지틀을 해제할수 없다. 해제하면 자료를 잃게 
된다. 함수는 pagecache_lock 스핀잠그기를 해제하고 비활성목록의 끝에서 다음페지 
에 대해 계속한다. 

12. 함수가 여기에 이르면 폐지는 디스크에 영상이 있으며 해제할수 있고 불결한것 
이 아니 다. 따라서 실제로 폐지 틀을 해제 할수 있다. 폐지가 교환캐쉬 에 속해있으면 함수 
는 index 마당에서 교환하여내기페지식별자를 얻고 delete _ from _ swap _ cache () 를 호 
출하여 교환캐 쉬 에 서 페 지 서 술자를 제 거 하고 pagecache_lock 스핀 잠그기 를 해 제 하고 
swap _ free () 를 호출하여 페지슬로트의 사용계수기를 감소시킨다. 

13. 그렇지 않으면 폐지가 교환캐쉬에 속하는지 검사한다. 속하지 않으면 
remove _ inode_page () 를 호출하여 페 지 캐 쉬 에 서 제 거 하고 (《 페 지 패 쉬 처 리 함수》참고) 
pagecache_lock 스핀잠그기를 해제 한다. 

14. _ lru _ cache _ del () 을 호출하여 비활성목록에서 페지를 제거한다. 

15. 페지의 잠그기를 제거한다. 

16. 페지들을 형제체계로 반환한다. 

17. 함수가 목표로 하는 수의 폐지틀을 해제했으면 스핀잠그기를 해제 하고 0을 되 
돌이한다. 그렇지 않으면 비활성목록의 끝에서 다음폐지에 대해 계속한다. 

3) 등록부입 구점과 i 마디패 쉬 에서 폐지 틀회수하기 

등록부입구점객체와 i 마디객체자체는 크지 않지만 이 객체를 해제하면 련속적인 효 
과로 여러 자료구조를 해제하여 많은 기억기를 해제할수 있다. 이런 리유로 하여 
shrink _ cacliesO 함수는 등록부입구점과 i 마디캐쉬에서 폐지틀을 회수하는 전용함수 두 
개를 호출한다. 

O 등록부입구점패쉬 에서 폐지회수하기 

등록부입구점캐쉬에서 등록부입구점객체를 제거하기 위해 

shrink _ dcache_memory () 함수를 호출한다. 물론 어떤 프로쎄스도 참조하지 않는 
(《등록부입구점객체》에서 사용되지 않는 등록부입구점으로 정의한) 등록부입구점객체 
만 삭제할수 있 다. 

등록부입 구점 캐 쉬 객 체 가 스렘 할당자를 통해 할당되 였 으므로 shrink _ dcache _ 
memory 0함수는 일부 스랩을 비을수 있고 결과적으로 kmem _ cache _ reap () 함수가 일 
부폐지 틀을 회수할수 있다. 그리 고 등록부입구점캐 쉬는 i 마디캐쉬의 조종기 로 동작하므 
로 등록부입구점객체를 해제하면 대응하는 i 마디를 저장한 완충기도 사용되지 않게 되여 
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shrink _ mmap () 함수가 대응하는 완충기패지를 해제할수 있게 된다. 

shrink _ dcache_memory ( ) 함수는 priority 와 gfp _ mask 라는 두 변수를 받아 다음 
단계를 수행한다. 

1. 핵심부가 파일체계의 디스크자료구조에 대해 연산을 시작하는것이 허용되지 않 
으면 0을 반환한다. ( gfp_mask 변수의 _ GFP_IO 비트가 설정 되 여 있지 않음) 

2. 그렇지 않으면 사용되지 않는 등록부입구점의 수를 priority 값으로 나눈 값을 
변수로 pmne _ dcache () 를 호출한다. 

3. kmem _ cache _ slirinkO 를 등록부입구점캐쉬에 대해 호출하여 앞단계에서 해제 
한 객체를 포함하는 프레임을 해제한다. 

4. 0을 반환한다. 

prune _ dcaclie () 함수는 해제할 객체의 수를 나타내는 변수를 받는다. 함수는 요청 
한 수의 객체를 해제하거나 목록 전체를 람색할 때까지 목록을 탐색한다. 최근에 참조하 
지 않은 객체에 대해 prune _ one _ dentry 0를 호출한다. 

prune _ one _ dentry () 함수는 다음 연산을 실행 한다. 

1. 등록부입구점 객체를 등록부입구점 하쉬 표와 부모등록부의 등록부입구점객체목록， 
소유자 i 마디 의 등록부입 구점객 체목록에 서 제 거 한다. 

2. djnput 등록부입구점메 쏘드가 정의되 여있으면 이 메 쏘드를， 그렇지 않으면 
iputO 함수를 호출하여 등록부입구점의 i 마디의 사용계수기를 감소시킨다. 

3. d _ release 등록부입구점메쏘드가 정의되여있다면 이 메쏘드를 호출한다. 

4. kmem _ cache _ free () 를 호출하여 스랩할당자에서 객체를 해제한다. (《 캐쉬에서 
객 체 해 제 하기》참고) 

5. 부모등록부의 사용계수기를 감소시킨다. 

ᄋ i 마디패쉬에서 폐지회수하기 

shrink _ icache _ memory () 함수를 호출하여 i 마디캐쉬에서 i 마디객체를 제거한다. 
조금전에 설명한 shrink _ dcache _ memory () 와 아주 비슷하다. gfp_mask 변수의 
_ GFP _ FS 비트를 검사하고 해제할 i 마디의 수(즉 사용되지 않는 i 마디의 수를 우선순위 
로 나눈 값)를 변수로 prune _ icache () 를 호출한다. 끝으로 prune _ cache () 를 호출하 
여 폐지틀을 해계하고 형제체계로 반환하기 위해 kmem _ cache _ shrink () 를 호출한다. 

prune _ icache () 함수는 inode_unused 목록을 탐색 하여 (《 i 마디 객 체》참고) 해 제 
할 i 마디를 찾는다. 좋은 후보는 불결한것이 아니고 사용계수기가 0이고 I _ FREEING , 
I _ CLEAR , I_LOCK 기 발이 설정되 여있지 않으며 불결한 완충기목록에 완충기머 리부를 
가지지 않는것이다. 이와 같은 i 마디를 clear _ inode () 와 kmem _ cache _ free () 함수를 호 
줄하여 해제한다. 

prune _ icache () 가 i 마디객체를 요청한 수만큼 해제하는데 실패하면 

try _ to _ sync _ unused _ inodes 0 함수를 실행 하도록 한다. 이 함수는 사용되지 않는 i 마 
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디 일부를 디스크로 흘린다. 이 함수는 차단될수 있으므로 keventd 핵심부스레드에 의 
해 실행된다.(《핵심부스레드》참고) 

4) kswapd 핵심부스레드 

kswapd 핵심부스레드는 기억기의 회수를 수행하는 또 다른 핵심부기구이다. 이것이 
왜 필요한가? 빈 기억기가 정말로 부족하고 기억기할당요청이 들어왔을 때 
try_to_free_pages 0 를 호출하면 충분하지 않을가? 

불행하게도 이런 경우만 있는것이 아니다. 어떤 기억기할당요청은 새치기나 례외조 
종기를 실행하며 이것들은 여유폐지틀을 기다리는 현재프로쎄스를 차단하지 못한다. 그 
러고 어떤 기억기할당요청은 이미 중요한 지원에 대해 배타적인 접근을 획득한 핵심부조 
종경로에 의해 이루어지므로 입출력자료전송을 활성화할수 없다. 드문 경우지만 모든 기 
억기할당요청이 이와 같은 핵심부조종경로에 따라 이루어진 경우 핵심부는 영원히 기억 
기를 비우지 못한다. 

또 kswapd 는 콤퓨터가 아무 일도 하지 않을 시간에 기억기회수를 수행하여 체계성 
능을 높인다. 프로쎄스는 폐지를 훨씬 빨리 얻을수 있다. 

kswapd 핵 심 부스레 드는 어 떤 지 역 (zone) 이 어 떤 경 계 수위 보다 적 은 수의 여 유페 
지틀을 포함하고있으면 활성화된다. 핵심부는 더 심한 기억기부족상태를 피하기 위해 페 
지틀 몇개를 회수한다. 

《 경 계 수위 (warning threshold) 》는 기 억 기 구역 서 술자의 pages_low 마당에 저 장 
되 여있다. 《 기 억기지 역》에서 살펴 본것처 럼 이 서술자에는 pages_min 마당(언제 나 확 
보하고있어야 하는 여유패지틀의 수)와 pages_high 마당(더는 폐지틀을 회수할 필요가 
없으므로 멈춰야 하는 안전수준)도 있다. 보통 pages_min 마당은 기억기구역의 크기를 
페 지단위 로 나타낸 값을 128 로 나눈 수고 pages_low 는 pages_min 의 두배 이 며 
pages_high 는 pages_min 의 세배 이다. 보통 kswapd_wait 대기 렬에 kswapd 핵심부 
스레드를 삽입한다. 《폐지틀의 요청과 해제》에서 설명한것처럼 alloc_pages() 함수가 
pages_low 보다 많은 페지틀을 보유한 기억기지역을 찾는데 실패하면 첫번째 검사한 기 
억기지역의 need_balance 마당을 설정하고 kswapd 를 깨운다. 

kswapd 핵심부스레드는 kswapdO 함수를 실행하여 매번 활성화될 때마다 다음과 
같은 연산을 수행한다. 

1. current (현재프로쎄스)의 상태를 TASK_RUNNING 으로 설정하고 current 를 
kswapd_wait 대기 렬 에서 제거 한다. 

2. kswapd_balance () 를 호출한다. (아래 참고) 

3. tq_disk 작업대기렬에 대해 mn_task_queue() 를 호출하여 블로크장치구동프로 
그람의 전략루린을 활성화한다 ( 《 ll_rw_block() 함수》참고) 이렇게 하면 순서짜기된 
입출력 연산을 시작하여 결국 핵심부가 비동기 완충기머 리부와 폐지 캐쉬의 폐지를 해제 할 
수 있도록 함으로써 기억기부담을 던다. 
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4. current 의 상태를 TASK_INTERRUPTIBLE 로 설정하고 current 를 
kswapd_wait 대기 렬에 추가한다. 

5 . 모든 기 억 기 지 역서 술자의 need_balance 기 발을 검 사한다. (《 기 억 기 지 역》참고) 
기발이 설정된것이 없으면 schedule()4 - 호출하여 kswapd 핵심부스레드를 잠들게 한 
다. 다시 실행되면 1단계로 이동한다. 

kswapd_balance() 함수는 모든 기억기지역의 need_balance 기발을 검사한다. 기 
발이 설정된 기억 기지 역에 대 해 try_to_free_pages () 를 호출하여 페지틀 회 수를 시 작한 
다. try_toJree_pages() 함수는 폐지틀 SWAP_CLUSTER_MAX 개를 회수하지 못할 
수도 있다. 이 경우에 한 프로쎄스를 제거한다. 제거하게 되면 kswapd_balance() 는 
자신을 Is 동안 보류해서 그 동안 제거된 프로쎄스가 가지고있던 폐지틀을 핵심부가 회 
수하도록 한다. 

kswapd_balance() 함수는 어떤 지역 (또는 마디에 있는 다른 지역중 하나)의 여유 
폐지틀수가 기억기구역서술자의 pages_high 마당에 저장된 값보다 크게 될 때까지 기억 
기지역에 대해 try_to_free_pages () 를 계속 호출한다. 
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제 5 장. 입출력장치 

제 1 절. 새치기와 례외 

일반적으로 새치기 (interrupt) 는 처리기가 실행하는 명령어의 순위를 바꾸는 사건 
이라고 정의한다. 이런 사건은 CPU 내부와 외부에서 하드웨어적인 회로가 발생시키는 
전기적인 신호에 해당한다. 

새 치 기 를 흔히 동기 적 (synchronous) 인 새 치 기 와 비 동기 적 (asynchronous) 인 

새 치 기 로 나눈다. 

• 동기적인 새치기는 CPU 조종장치가 명령을 실행하는 도중에 발생시키는데 조종 
장치는 명령어실행을 마친 후에만 이것을 발생시키기때문에 동기적이라고 한다. 

• 비동기적인 새치기는 다른 하드웨어장치가 CPU 박자신호과 관계없이 아무 때나 
발생 시 킨다. 

새 치기는 간격시계 (interval timer) 와 입출력 장치 에 의해 발생 한다. 례를 들어 사용 
자가 건반의 건을 누르면 새치기가 발생한다. 반면에 례외는 프로그람작성오유나 핵심부 
가 처리해야 하는 비정상적인 상황에 의해 발생한다. 프로그람작성오유인 경우 핵심부는 
Unix 프로그람작성자에게 익숙한 신호 (signal) 중 하나를 현재프로쎄스에 보내서 례외를 
처리한다. 비정상적인 상황인 경우에는 폐지절환 (page fault) 이나 (int 명령을 통한)핵심 
부봉사요청 갈은 비정상적 인 상태를 복구하는데 필요한 모든 단계를 수행한다. 

이 절에서는 모든 PC 에서 공통적인 《전통적인》새치기만을 다투며 일부구성방식 
에 있는 비표준새 치기는 고찰하지 않는다. 례를 들어 무릎형름퓨터 (laptop) 에서는 여기 
서 다루지 않는 종류의 새치기가 발생한다. 

1. 새 치기신호의 역 할 

이름 그대로 새치기신호는 프로쎄스가 정상적인 조종흐름밖의 코드로 방향을 바꾸는 
방법을 제공한다. 새치기신호가 도착하면 CPU 는 자기이 현재 수행하던 과제를 멈추고 
새 로운 과제 로 전환해 야 한다. CPU 는 프로그람계수기 (program counter) 의 현재 값 
(즉 eip 와 cs 등록기 의 내 용) 을 핵 심 부방식탄창에 보관하고 발생 한 새 치 기 종류와 련관된 
주소를 프로그람계수기 에 넣 어 수행 한다. 

여기서 핵심부가 한 프로쎄스를 다른 프로쎄스로 교체할 때 발생하는 문맥절환을 생 
각할수도 있을것 이 다. 그러 나 새 치 기 처 리 와 프로쎄 스절환사이 에 는 중요한 차이 가 있다. 
새치기처리기나 례외처려기가 실행하는 코드는 프로쎄스가 아니며 새치기가 발생한 당시 
현재프로쎄스의 문맥 에서 실행되는 핵심부조종경 로라고 할수 있다. (《례외처 리기와 새치 
기처리기의 중첩실행》참고) 

새치기처리기는 핵심부조종경로이므로 프로쎄스보다 가볍다. (문맥이 더 적으며 시작 
하고 끝내는데 시간이 더 적게 든다.) 
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새 치기처 리는 다음과 같은 조건을 만족해 야 하기때문에 핵심부가 수행하는 가장 민 
감한 과제중의 하나이다. 

• 새치기는 핵심부가 빨리 끝마처야 하는 다른 과제를 하는 경우라도 상관없이 언 
제든지 발생할수 있다. 따라서 핵 심부의 목표는 가능한 빨러 새 치기 에서 벗어나고 되도 
록 많은 과제를 나중으로 미루는것 이다. 례를 들어 망선을 통해서 한개의 자료블로크가 
도착하였다고 가정 하자. 하드웨 어가 새 치기를 발생시켜 핵심부를 새 치기하면 핵심부는 
자료가 존재한다는 사실만 표시하고 처리기가 이전에 하던 일로 돌아가 과제를 끝마친 
후 나머지 과제 (수신할 프로쎄스의 완충기로 자료를 복사한 후 프로쎄스를 다시 시작하 
는 등)를 처 리한다. 이렇게 새 치기가 발생할 때 핵심부가 이 에 반응하여 할 일은 두가지 
로 나눌수 있다. 하나는 상반부 (top half) 토서 새 치기가 발생할 때 핵심부가 곧바로 실 
행하는 일이고 다른 하나는 하반부 (bottom half) 로서 나중으로 미루는 일이다. 핵심부 
는 실행해야 할 하반부를 나타내는 모든 함수에 대한 지적자를 대기렬로 관리하다가 처 
리과정중 어떤 시점이 되면 대기렬에서 꺼내서 실행한다. 

• 새치기는 언제든지 발생할수 있으므로 핵심부가 이미 새치기를 처리하고있을 때 
다른 새치기 (다른 종류의)가 발생할수 있다. 이것은 입출력장치의 운영을 최대화할수 있 
으므로 가능한 많이 허용해 야 한다.(《 례외처리기와 새 치기 처 리기의 중첩실행》참고) 
이 런 리 유로 새 치 기 처 리 기 는 해 당 핵 심 부조종경 토가 중첩 되 여 도 실 행 할수 있 도록 작성 해 
야 한다. 마지막핵심부조종경로가 끝나면 핵심부는 새치기된 프로쎄스의 실행을 재개하 
거나 새치기신호로 인해 순서짜기가 다시 일어나면 다른 프로쎄스로 절환한다. 

• 핵심부는 이전새치기를 처리하는 동안에도 새로운 새치기를 받을수 있지만 핵심 
부코드에는 새 치기를 금지해야 하는 림계령역 (critical region) 이 존재한다. 이전조건에 
서 보는것처럼 핵심부는 (특히 새치기처리기는) 대부분의 시간을 새치기를 허용한 상래 
에서 보내야 하기때문에 이런 림계령역은 가능한 제한해야 한다. 


2. 새치기와 례외 


새치기와 례외를 다음과 같이 분류한다. 

1) 새치기 

o 마스크가능한 새치기 

입출력장치가 제기하는 모든 새치기요청 (IRQ) 은 마스크가 능한 새 치기 (maskable 
interrupt) 를 발생시킨다. 마스크가 능한 새치기는 마스크 되거나 마스크 되지 않은 상태 
중 하나에 있을수 있다. 

조종장치는 마스크된 새 치기를 마스크되여있는 동안 계속 무시 한다. 
o 마스크불가능한 새 치 기 

일부 심각한 사건 (하드웨 어 고장 같 은) 만이 마스크 붙가능한 새 치기 (nonmaskable 
interrup) 를 발생시킨다. CPU 는 마스크 불가능한 새치기가 발생하면 이것을 항상 감시 
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한다. ( intterupt . h 참고) 

2) 례외 

(1) 처리기가 감시하는 례외 

CPU 가 명령을 실행하다가 비정상적인 상황을 발견할 때 발생한다. 이것은 CPU 조종장치가 
례외를 발생시 킬 때 핵심부방식 탄창에 보관하는 dp 등록기의 값에 따라 세 그룰으로 나눌수 있다. 

o 장애 

일 반적 으로 고칠수 있으며 일 단 바로잡으면 프로그람은 재 시 작하여 이 어서 실 행할수 
있다. 보관된 eip 값은 장애 ( fault ) 를 일으킨 명령의 주소이기때문에 례외처리기를 끝마 
치면 해당 명령으로 복귀할수 있다. 3장의 《폐지절환례외처러기》에서 보았지만 처리 
기가 례외를 발생시킨 비정상적 인 상태를 바로잠으려면 똑갈은 명 령으로 복귀 하는 절차 
가 필요하다. 

o 함정 

함정 ( trap ) 을 발생시키는 명령을 실행하자마자 발생한다. 프로그람은 핵심부로부터 
조종를 돌려받은 후에 이어서 실행할수 있다. 보관된 eip 값은 함정을 발생시킨 명령어 
다음에 실행해야 하는 명령어의 주소이다. 함정은 완료한 명령을 다시 실행할 필요가 없 
을 때에만 일어난다. 함정의 기본용도는 오유수정이다. 이 경우 새치기신호는 오유수정 
기에 특정명령이 실행되였음을 알려주는 역할을 한다. (례를 들면 프로그람에 있는 중단 
점 ( breakpoint ) 에 도달) 사용자는 오유수정 기 가 제 공하는 자료를 검 사한 후 오유를 수 
정하고있는 프로그람이 다음명령으로부터 실행을 재개하도록 할수 있다. 

o 중단 

심각한 오유가 생겼을 때 발생한다. 조종장치가 어려운 상황에 빠져있고 eip 등록기 
에 례외를 일으킨 정확한 위치를 보관하지 못할수도 있다. 이것은 하드웨어고장이나 체 
계표에 잘못된 값이 들어있을 때 발생한다. 조종장치 가 보낸 새 치기신호는 조종권을 해 
당 중단 ( abort ) 례외처 리기에 넘기려는 응답신호이다.이 처리기는 문제가 발생한 프로쎄 
스를 강제로 완료하는것외에 다른 선택권이 없다. 

(2) 프로그람작성에 의한 례외 

프로그람작성자의 요청에 의해 발생한다. 이것은 int 나 int 3 명령에 의해 발생한다. 
into (자리 넘 침 ( overflow ) 검사)와 bound (주소범위검사)명 령도 검사하는 조건이 맞지 
않은 경우 프로그람작성에 의한 례외를 발생시킨다. 조종장치는 이 례외를 함정으로 처 
리 한다. 프로그람작성 에 의한 례외를 종종 쏘프트웨 어새 치기 (software interrupt ) 라고 
도 한다. 이 례외의 일반적 인 용도는 두가지 로 정 리할수 있다. 하나는 체 계 호출을 구성 하 
는것 이 고 다른 하나는 오유수정 기 에 특별한 사건을 알려 주는것 이 다. 

각 새치기나 례외는 0부터 255까지의 수자로 구별한다. Intel 은 이 8 bit 로 된 0이 
상의 수자를 벡토르 ( vector ) 라고 부론다. 마스크불가능한 새치기와 례외벡토르번호는 
고정되 여 있다. 반면에 마스크가능한 새 치 기의 벡 토르번호는 새 치 기조종기 (Interrupt 
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controller) 를 프로그람화하여 바끌수 있다. 

3. IRQ 와 새치기 

새 치 기 요청 (interrupt request) 을 제 기 할수 있는 모든 하드웨 어 장치 조종기 는 IRQ 
라는 출력선하나를 가진다.체계에 존재하는 모든 IRQ 선은 새치기조종기 (interrupt 
controller) 라는 하드웨어회로의 입력단자로 련결된다. 새치기조종기가 하는 일은 다음 
과 갈다. 

1. IRQ 선을 감시하고 신호가 발생하면 이것을 검사한다. 

2. IRQ 선에서 발생한 신호라면 다음과 같이 동작한다. 

a. 수신한 신호를 해당 백 토르로 변환한다. 

b. 새치기조종기의 입출력포구에 벡토르를 보관하여 CPU 가 자료모선을 통해서 
이것을 읽을수 있도록 한다. 

c. 발생한 신호를 처 리기의 INTR 단자로 보낸다. 즉 새 치기를 발생시킨다. 

d. CPU 가 프로그람가능한 새 치기조종기 (PIC: Programmable Interrupt 
Controller) 의 입출력포구중 하나에 값을 써넣어 CPU 가 새치기신호를 받았음을 알려 
줄 때 까지 기 다린 다. 이 런 상태 가 발생 하면 INTR 선을 0 으로 만든다. 

3. 1 단계로 되돌아간다. 

IRQ 선은 0 부터 시작해서 순차적으로 번호가 붙어있으며 첫번째 IRQ 선을 보통 IRQ0 으 
로 표시한다. Intel 에서 IRQn 에 부여하는 기본벡토르는 n+32 이다. 앞에서 설명한대로 IRQ 
와 벡토르사이의 사영은 새 치기조종기포구에 적절한 입출력명 령을 보내서 수정할수 있다. 

각 IRQ 선을 선택적으로 금지할수 있으며 여 러 IRQ 를 금지하도록 PIC 를 프로그람화할 
수도 있다. 즉 어떤 특정 IRQ 선에서 오는 새치기를 더는 발생시키지 않도륵 PIC 에 요청할 
수도 있고 그 반대로 새치기를 허용하게 할수도 있다. 금지된 새치기는 없어지는것이 아니 
며 PIC 는 해당 새치기를 허용하자마자 새치기를 CPU 에 전달한다. 이런 특성은 종류가 동 
일한 IRQ 를 련속적으로 처리할수 있게 하기때문에 대부분의 새치기처리기에서 리용한다. 

선택적으로 IRQ 를 허용하거나 금지 하는것과 별도로 마스크가 능한 모든 새치기를 
마스크 하거 나 마스크 해 제 (unmask) 할수도 있다. eflags 등록기 의 IF 기 발을 0 으로 끄면 
CPU 는 일시적으로 PIC 가 발생시키는 어떠한 마스크가 능한 새치기도 무시한다. cli 와 
sti 기호언어명령을 사용해서 각각 IF 기발을 끄거나 켤수 있다. 다중처리기체계에서 새치 
기를 마스크 하거 나 마스크 해제 하는것은 각 CPU 마다 자기만의 eflags 등록기를 가지고있 
기 때문에 좀 더 까다롭다. (irq. c, irq.h, irq_vectors. h 참고) 

전통적 으로 PIC 는 8259A 종류의 외 부소자 두개 를 중첩방식 으로 련결 하여 구성한다. 
각 소자는 8 개까지 서로 다른 새치기선을 처리할수 있다. 종속 (slave)PIC 의 INT 출력 
선은 주 (master)PIC 의 IRQ2 에 련결되 여있기때 문에 사용할수 있는 IRQ 의 개수는 15 
개로 제한된다. 
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4. 향상된 프로그람가능한 새치기조종기 


앞에서는 단일처리기체계용으로 설계한 PIC 를 설명하였다. 체계에 CPU 가 하나밖에 
없다면 주 PIC 의 출력선을 곧바로 CPU 의 INTR 단자로 련결하면 된다. 그렇지만 체계에 
CPU 가 두개이상 있다면 더는 이런식으로 할수 없고 좀 더 복잡한 PIC 를 사용해야 한다. 

SMP 구조의 병렬성을 최대한 활용하려면 체계에 있는 모든 CPU 로 새치기를 전달 
하는것 이 펼수적 이다. 이 런 리 유로 Intel 은 입 출력 향상된 프로그람가능한 새 치 기 조종기 
(I/O APIC, I/O Advanced Programmable 

Interrupt Controller) 라는 구성요소를 도입 해서 낡은 8259A 프로그람가능한 새 치 
기조종기를 대체 하였다. 나가서 현재 출하되는 모든 Intel CPU 에는 국부 APIC(local 
APIC) 가 들어있 다. 각 국부 APIC 는 32bit 등록기 와 내 부박자, 국부시 계 장치 , 국부새 
치기용으로 예약된 두개의 부가적인 IRQ 선인 LINT0 과 LINT1 을 가전다. CPU 내부에 
있는 모든 국부 APIC 를 외부에 있는 입출력 APIC 로 련결하여 다중 APIC 체계를 구성한 
다. (io_apic.c, mach_apic.h 참고) 

그림 5-1 은 다중 APIC 체 계 의 구조를 도식 적 으로 보여준다. APIC 모선 (APIC bus) 은 
앞단에 있는 입출력 APIC 와 국부 APIC 를 련결한다. 장치로부터 나온 IRQ 선은 입출력 
APIC 로 련결되 여 입 출력 APIC 는 국부 APIC 의 립 장에서 보면 경 로기 (router) 역 할을 한다. 
APIC 모선은 펜리움 3 이나 그 이전 처리기를 탑재한 기판에서는 직렬로 된 선 3 개로 이루어 
진다. 펜리움 4 부터는 체계모선를 리용하여 APIC 모선를 구성한다. 그렇지만 APIC 모선과 
APIC 모선통보는 쏘프트웨어에 보이지 않기때문에 더는 설명하지 않는다. 


- 지역 

- IRQs 


- 지역 

- IRQs 


새 치 기 조종기 통신 (ICC) 모선 


입출력 

APIC 


외부 

IRQs 


그림 5-1. 다중 APIC 체계 
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입출력 APIC 는 IRQ 선 24 개와 새치기재지정표 (interrupt redirection table) 입구 
점 24 개, 프로그람가능한 등록기, APIC 모선를 통하여 APIC 통보를 보내고받을수 있는 
통보장치 (message unit) 로 구성된다. 8259A 의 IRQ 단자와는 달리 단자번호와 새치기 
우선순위는 이무런 관계가 없다.재지정표에 있는 입구점을 프로그람화하여 개별적으로 
새 치기백토르와 우선순위 , 목적지처 리기 , 처 리기선택 방법을 지정할수 있다. 재지정 표에 
있는 정보를 사용하여 각 외부 IRQ 신호를 APIC 모선를 통해 국부 APIC 장치 하나이상으 
로 전달하는 통보로 변환한다. 

외부하트웨 어장치 에서 오는 새 치기요청 을 사용가능한 CPU 사이 에서 분배하는 방법 
은 두가지 이 다. 

o 정적분배 

IRQ 신호를 해당 재지정표입구점에서서 지정하고있는 국부 APIC 로 전달한다. 한번에 
지정한 CPU 하나 혹은 CPU 의 부분집합, 모든 CPU 로(방송방식) 새치기를 전달한다. 

o 동적분배 

새 치기신호를 우선순위가 가장 낮은 프로쎄스를 실행하는 처리기의 국부 APIC 로 전 
달한다. 모든 국부 APIC 는 프로그람가능한 과제 우선순위등록기 (TPR, Task Priority 
Register) 를 가지고있어 현재 실행중인 프로쎄스의 우선순위를 계산할 때 사용한다. 
Intel 에서는 프로쎄스절환을 할 때마다 조작체계핵심부가 이 등록기를 바끌것이라고 예 
상한다. 

갈은 가장 낮은우선순위를 가진 CPU 가 두개 이상이 라면 중재 

(arbitra 仕 on) 기법을 사용하여 CPU 사이에서 부하를 분배한다. 국부 APIC 에 있는 
중재 우선순위 등록기 (arbitration priority register) 를 리 용하여 각 CPU 마다 0 에서 15 
사이에 있는 중재우선순위를 지정한다. 각 국부 APIC 는 서로 고유한값을 가전다. 

새치기를 CPU 에 전달할 때마다 해당 CPU 의 중재우선순위를 자동으로 설정하고 
다른 모든 CPU 에 있는 중재우선순위를 1 씩 증가시킨다. 중재우선순위등록기값이 15 보 
다 커지면 이 값을 바로 전에 새치기를 전달한 CPU 가 가지고있던 중재우선순위값에 1 
을 증가시 킨값으로 설정 한다. 따라서 과제 우선순위 가 같은 CPU 사이 에 서 원형 (round- 
robin) 방식으로 새치기를 분배하게 된다. 

다중 APIC 체계는 처리기사이에서 새치기를 분배하는것외에도 CPU 가 처리기간 새 
치기 (interprocessor interrupt) 를 발생시 킬수 있게 한다. CPU 는 다른 CPU 로 새 치 
기를 보내고 싶을 때 자기의 국부 APIC 에 있는 새치기명령등록기 (ICR, Interrupt 
command Register) 에 새치기백토르와 대상 CPU 에 있는 국부 APIC 의 식별자를 기록 
한다. 그러면 APIC 모선를 통해 목적지인 국부 APIC 로 통보가 전달되여 그 CPU 에서 
해당하는 새치기가 발생한다. 

처리기간새치기 (간단히 줄여서 IPI 라 한다.)는 SMP 구성방식의 일부로서 Linux 는 
CPU 사이에서 통보를 교환할 때 이것을 활발히 사용한다. (뒤에 나오는《새치기봉사루 
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린》참고) 지 금 나오는 대 부분의 단일 처 리 기 체 계 는 입 출력 APIC 소자을 내 장하고있 으며 
이 소자를 서 로 다른 두가지 방식 으로 설 정할수 있 다. 

• CPU 에 련결된 표준 8259A 류형 의 외 부 PIC 로 설정한다. 국부 APIC 를 끄고 
두개의 국부 IRQ 선인 LINTO 과 LINT1 을 각각 INTR 와 NMI 단자로 설정한다. 

• 표준입출력 APIC 로 설정한다.국부 APIC 를 켜고 입출력 APIC 를 통해 외부새치 
기를 수신한다. 

5. 례외 

80x86 극소형처 리 기는 대 략 20 여개의 서 로 다른 례외를 발생시 킨다. 핵 심부는 각 
례외류형 에 따라 전용례외처리기를 제공해 야 한다. 일부 례외의 경우 CPU 조종장치는 
하드웨어오유코드 (hardware error code) 를 만들어 례외처리기를 시작하기 전에 이것 
을 핵심부방식탄창에 넣기도 한다. 

다음목록은 80x86 처리기에 있는 례외의 백토르와 이름, 류형 그리고 간단한 설명이다. 

0 -《 나누기 오유 (divide error ) > (장애 ) 

프로그람이 어떤 정수값을 0으로 나누려고 할 때 발생한다. 

1 -《오유수정 ( Debug )〉 (함정 또는 장애) 

eflags 의 T 기 발을 설정(오유수정 하려는 프로그람을 행단위 로 실행할 때 매우 쓸 
모있다.)한 때 나 명 령주소나 피 연산자가 활성화된 오유수정등록기 에서 지정 한 범위안에 
들어갈 때 발생한다. 

2 -사용하지 않음 

마스크불가능한 새 치 기 (NMI 단자를 사용하는 새 치 기 )용으로 예 약하고있 다. 

3 -《 중단점 ( Breakpoint ) > (함정 ) 

lnt 3( 중단점)명 령 어(보통 오유수정기가 삽입한다.)에 의해 발생 한다. 

4 - 《 자리 넘 침 ( Overflow ) > (함정 ) 

into (자리 넘 침검사)명 령을 실행 할 때 eflags 의 OF (자리 넘 침)기 발이 설정 되 여있 
는 경우에 발생한다. 

5 -《 범 위 검 사 (Bound check ) > (장애 ) 

bound (주소범위검사)명령을 실행할 때 지정한 피연산자가 유효한 주소범위를 벗 
어 나있는 경우에 발생한다. 

6 -《 잘못된 연산코드 (Invalid opcode ) > (장애 ) 

CPU 실 행 장치 (execution unit) 가 잘못된 연산코드 (opcode, 수행 할 연산을 결정 
하는 기계어명령의 일부)를 발견한 경우에 발생한다. 

7 -《 장치 를 사용할수 없음 (Device not available ) > (장애 ) 

crO 의 TS 기 발을 설정 한 상태 에서 확장명 령 (escape instrucion) 이 나 MMX, 
XMM 명 령을 실행한 경우이 다. 
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8 -《 이 중장애 (Double fault) > (중단) 

CPU 가 이전에 발생한 례외를 처 리하는 처 리기를 호출하는 과정 에서 례외가 다시 
발생한 때이다. 보통은 례외 두개를 련속해서 처리할수 있지만 종종 련속적으로 처리할 
수 없는 경우가 있는데 바로 이때 이 례외가 발생한다. (doublefault.c 참고) 

9 - 《 보조처 리 기 토막초과 (Coprocessor segment overrun) > (중단) 

외부수값보조처 리 기 에 문제 가 발생 한 때 이 다. (이 전 80386 극소형 처 러 기 에 만 해 당 

한다.) 

10 -《 잘못된 TSS (Invalid TSS) > (장애) 

CPU 가 잘못된 과제상태토막를 가전 프로쎄스로 문맥절환하려 할 때 발생한다. 

11 -< 존재 하지 않는 토막 (Segment riot present) > (장애 ) 

기억기에 존재하지 않는 토막(토막서술자의 Segment-Present 기발이 0 인 토 
막)을 참조하는 경우에 발생 한다. 

12 - 《 탄창토막 (Stack segment) > (장애 ) 

명령이 탄창토막의 제한을 넘어서려고 했거나 ss 가 가리키는 토막이 기억기에 존 
재 하지 않는 경우에 발생한다. 

13 - 《 일 반보호 (Generalprotectlon) 》(장애 ) 

80x86 의 보호방식에 있는 보호규칙중 하나를 위반한 경우에 발생한다. 

14 -《폐지 절환 (Page Fault) > (장애) 

주소로 참조한 페 지 가 기 억 기 에 존재 하지 않거 나 해 당 폐 지 표입 구점 이 비 여있거 
나 페지화보호수법을 위반한 경우이다. 

15 - 예약 

16 -《 류동소수점 오유 (Floating point error) > (장애 ) 

CPU 에 통합되여 들어있는 류동소수점장치 에서 수자자리넘침이나 0 으로 나누기 
갈은 오유상황이 발생했음을 알려주는 경우이다. 

17 -《 정 렬 검 사 (Alignment check) > (장애 ) 

피 연산자의 주소가 옳바로 정 렬되 여 있지 않은 경우이 다. (례를 들어 long 자료형 
옹근수의 주소가 4 의 배수가 아닌 경우) 

18 -《 기 계 검 사 (Machine check) > (중단) 

기계검사수법이 CPU 나 모선오유를 발견한 경우이다. 

19 - <S1MD 류동소수점》(중단) 

CPU 소자에 들어있는 SSE 나 SSE2 장치 에 서 류동소수점연산을 할 때 오유상태 
가 발생하여 이것 을 알려 준 경우이 다. 

Intel 은 20 에서 31 까지 범위를 나중에 개발용으로 사용하기 위해 예약해 두었다. 
표 5-1 에서 보는바와 같이 각 례외마다 특정례외처리기가 있어 례외를 처리한다. (뒤에 
나오는 《 례 외 처 리》참고) 이 례 외 처 리 기 는 대 개 례 외 를 발생 시 킨 프로쎄 스에 Unix 신 
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호를 보낸다. 


M 5-1. 례외처리기가 보내는 신호 



례 외 

례 외 조종기 

신 호 

0 

나누기 오유 

Divide error() 

SIGFPE 

1 

오유수정 

Debug 0 

SIGTRAP 

2 

NMI 

Nmi() 

없음 

3 

중단점 

Int30 

SIGTRAP 

4 

자리 넘침 

overflow () 

SIGSEGV 

5 

범위검사 

bounds0 

SIGSEGV 

6 

잘못된 연산코드 

invalid op() 

SIGILL 

7 

장치를 사용할수 없음 

device not available 0 

SIGSEGV 

8 

이중실패 

double fault() 

SIGSEGV 

9 

보조프로쎄 스토막넘 침 

coprocessor_segment_ove 

rrun () 

SIGFPE 

10 

잘못된 TSS 

invalid tss () 

SIGSEGV 

11 

존재하지 않는 토막 

segment not p resent 0 

SIGBUS 

12 

탄창토막 

Stack segment () 

SIGBUS 

13 

일 반보호 

gene ral p rotection () 

SIGSEGV 

14 

폐지 실패 

Page fault() 

SIGSEGV 

15 

예약 

없음 

없음 

16 

류동소수점오유 

coprocessor error () 

SIGFPE 

17 

정렬검사 

alignment check () 

SIGBUS 

18 

기계 검사 

machine check () 

없음 

19 

SIMD 류동소수점 

simd_coprocessor_error () 

SIGFPE 


6. 새치기서술자표 

새치기서술자표 ( IDT : Interrupt Descriptor Table ) 라는 체계표는 각 새치기와 
새치기처리기의 주소, 례외벡 토르와 례외 처리기의 주소를 련결한다. 핵심부는 새치기를 
허용하기 전에 IDT 를 옳바르게 초기화해야 한다. IDT 형식은 4장에서 살펴본 GDT 와 
LDT 의 형식과 비슷하다. 각 입구점는 8 B 크기의 서술자로 되 여있으며 새 치 기벡 토르나 
례외벡토르 하나에 대응한다. 따라서 IDT 를 보관하는데는 최대 256 X 8=2048 B 가 필요 
하다. IDT 의 기정입구점수는 256으로 제정되 여있다. 

idtr CPU 등록기 가 있어 IDT 를 기 억기의 어느 위 치에 나 둘수 있다. idtr 등록기 에 
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는 IDT 의 기 본물리 주소와 범 위 (최 대 길 이 ) 가 들어 간다. 새 치 기 를 허 용하기 전 에 lidt 아 
쌤블러어명령을 사용하여 idtr 를 초기화해야 한다. IDT 에는 세 종류의 서술자가 들어갈 
수 있다. 그림 5-2 에 각 서술자에 들어가는 64bit 의 의미를 보여준다. 이중 4( 卜 43bit 에 
있는 Type 마당이 서술자의 종류를 구별한다. 

세 종류의 서술자는 다음과 갈다. 

과제 문 

새 치기신호가 발생할 때 현재프로쎄스틀 대체할 프로쎄스의 TSS 선택기를 가진다. 
Linux 에서는 과제 문 (task gate) 을 사용하지 않는다. 

새 치 기 문 

새치기나 례외처리기의 토막선택기와 토막내편위를 가전다. 해당 토막으로 조종를 
넘길 때 처리기는 IF 기발을 0으로 설정하여 마스크가능한 새치기가 더는 발생하지 않게 
한다. 

함정 문 

새치기문 (interrupt gate) 과 비숫하지만 해당 토막으로 조종를 넘길 때 처리기가 
IF 기발을 바꾸지 않는다는 차이가 있다. 앞으로《새치기와 함정, 체계문》에서 살펴보 
지만 Linux 는 새 치기를 처리할 때에는 새치기문, 례외를 처리할 때에는 함정문을 사용 
한다. 

과제 문서 술자 

63 62 61 60 59 58 57 56 55 54 53 52 51 50 49 48 47 46 45 44 43 42 41 40 39 38 37 36 35 34 33 32 



31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 876543210 


새치기문서술자 


63 62 61 60 59 58 57 56 55 54 53 52 51 50 49 48 47 46 45 44 43 42 41 40 39 38 37 36 35 34 33 32 


편위 (16-31) 

P 

D 

P 

L 

0 

1 

1 

1 

0 

0 

0 

) 

예약됨 

토막 선택 기 

편위 (0-15) 


31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 876543210 
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함정문서술자 


63 62 61 60 59 58 57 56 55 54 53 52 51 50 49 48 47 46 45 44 43 42 41 40 39 38 37 36 35 34 33 32 


편위 (16-3) 

P 

D 

P 

L 

0 

1 

1 

1 

1 


0 

0 

예약됨 

토막 선택 기 

편위 (0-15) 


31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 876543210 


그림 5-2. 문서술자형식 


7. 새치기와 례외의 하드웨어적인 처리 


이제 CPU 조종장치가 어떻게 새치기와 례외를 처리하는지 살펴보자. 여기서는 핵심 
부초기화가 이미 끝나서 CPU 가 보호방식에서 동작하고있다고 가정한다. 어떤 명 령을 
실행한 후 CS 와 eip 등록기쌍은 다음에 실행할 명령어의 론리주소를 자진다. 다음명령을 
처 리 하기 전에 조종장치 는 이 전 명 령 을 실 행 하는 동안 새 치 기 나 례 외 가 발생 했는지 검 사 
한다. 만약 둘중 하나라도 발생 하였다면 조종장치는 다음과 같이 동작한다. 

1. 발생한 새치기나 례외에 해당하는 벡토르 i(0 호 IS255) 를 알아낸다. 

2.idtr 등록기가 가리키는 IDT 에서 i 번째 입구점을 읽어들인다. (입구점에 새치기문 
이 나 함정문이 들어 있다고 가정한다.) 

3. gdtr 등록기에서 GDT 의 기본주소를 가져와서 IDT 입구점에 있는 선택기가 가리 
키는 토막서술자를 GDT 에서 읽어들인다. 이 서술자는 새 치기처 리기 나 례외처 리기를 포 
함한 토막의 시작주소를 지정한다. 

4. 새치기가 인증된 곳에서 발생한것인지 검사한다. 먼저 cs 등록기의 마지막 두 비 
트에 들어있는 현재 특권준위 (CPL, Current Privilege Level) 와 GDT 에 들어있는 토 
막서술자의 서술자특권준위 (DPL Descriptor Privilege Level) 를 비교한다. 새 치기처 
리 기는 새 치 기를 발생시킨 프로그람보다 낮은 특권을 가질수 없으므로 CPL 이 DPL 보다 
낮으면 일 반보호 (general protection) 례 외 를 발생 시 킨다. 

프로그람작성 에 의 한 례 외 (Programmed excep 仕 on) 의 경 우 보안검 사를 추가로 한 
다. CPL 과 IDT 에 들어있는 문 (gate) 서 술자의 DPL 을 비 교하여 DPL 이 CPL 보다 낮 
으면 일반보호례외를 발생시킨다. 이 마지막검사는 사용자응용프로그람이 특정함정문이 
나 새치기문에 접근하는것을 막을수 있게 한다. 

5. 특권준위 의 변화가 일 어 날것인지 즉 선택 한 토막서 술자의 DPL 과 CPL 이 다른 
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지 검사한다. 다르다면 조종장치는 새로운 특권준위에 맞는 탄창을 사용하기 시작해야 
한다. 

다음단계로 이것을 수행한다 . 

a . current 프로쎄스의 TSS 토막에 접근하려고 tr 등록기를 읽어들인다. 

b . 새로운 특권준위과 관련된 옳바른 탄창토막과 탄창지적자의 값으로 ss 와 esp 등록 
기 를 설정 한다. 이 값은 TSS 에 들어있 다. 

c . 이전특권준위과 련관된 탄창의 론리주소 ss 와 esp 의 이전값을 새로운 탄창에 보 
관한다. 

6. 장애 ( fault ) 가 발생하였다면 례외를 발생시킨 명 령의 론리주소로 cs 와 eip 를 설 
정하여 이 명령을 다시 실행할수 있게 한다. 

7. eflags 와 cs , eip 의 내용을 탄창에 보관한다. 

8. 례외에 따른 하드웨어오유코드가 있으면 이것을 탄창에 보관한다. 

9. cs 와 eip 롤 각각 IDT 의 i 번째 입구점에 보관된 문 ( gate ) 서술자의 토막선택기와 
편위마당으로 설정한다. 이 값은 새치기처리기나 례외처리기의 첫번째 명령의 론리주소 
이다. 조종장치는 마지막 단계로 새치기처리기나 례외처리기로 이행한다. 다시 말하면 
새치기신호를 처리한 후에 조종장치가 처음으로 실행하는 명령은 선택한 처리기의 첫 명 
령어가 된다, 

새치기나 례외를 처리하고 나면 해당 처리기는 iret 명령을 호출하여 새치기되였던 
프로쎄스로 조종권을 돌려주어야 한다. iret 명령을 실행하면 조종장치는 다음과 같이 동 
작한다. 

1. 탄창에 보관했던 값으로 cs 와 eip , eflags 등록기를 복구한다. 탄창에서 eip 다 
음에 하드웨어오유코드가 들어있다면 iret 를 실행하기 전에 이것을 꺼내야 한다. 

2. 처 리 기의 CPL 이 cs 의 아래 자리 두 비 트에 들어 있는 값과 같은지 검사한다. (같 
다면 새 치기된 프로쎄스가 처 리기 와 똑같은 특권준위 에서 실행 중이 였다는 사실을 의미한 
다.) 값이 갈으면 Iret 는 실행을 완료하고 그렇지 않으면 다음단계로 진행한다. 

3. 탄창에서 ss 와 esp 등록기를 가져와서 이전특권준위과 련관된 탄창으로 돌아간다. 

4. ds 와 es , fs , gs 토막등록기의 값을 검사한다. 이중 하나라도 DPL 이 CPL 보다 
낮은 토막서술자를 가리키면 해당 토막등록기를 지운다. 조종장치가 이런 일을 하는 리 
유는 CPL 이 3인 사용자방식프로그람이 이전에 핵심부코드에서 사용한 DPL 이 0인 토 
막등록기를 사용하는것을 막기 위해서이다. 이 등록기를 지우지 않으면 악의적인 사용자 
방식 프로그람이 이것 을 리 용하여 핵 심 부주소공간에 접 근할수 있다. 


8. 례외 처리기와 새 치기처 리기의 중첩실행 


핵심부는 새치기나 례외를 처러할 때 별개의 련속된 명령인 핵심부조종경로 (kernel 
controll pa 比！)를 새로 시작한다. 례를 들어 프로쎄스가 체계호출을 진행하면 해 당 핵 
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심부조종경로의 첫번째 명령은 등록기의 내용을 핵심부방식탄창에 보관하고 마지막 명령 
은 등록기의 내용을 복구하고 CPU 를 사용자방식으로 돌려보낸다. Linux 는 CPU 가 새 
치기를 다투는 핵심부조종경로를 실행할 때에는 프로쎄스절환이 일어나지 않도록 설계되 
였다. 그러나 핵심부조종경로는 얼마든지 중첩할수 있다. 새치기처리기는 다른 새치기처 
리기를 가로챌수 있어 결과적으로 핵심부조종경로를 중첩해서 실행하게 된다. 다시한번 
강조하지 만 핵 심 부가 핵 심 부조종경 로를 중첩 해 서 다투는 동안에 현재 프로쎄 스는 바뀌 지 
않는다. 핵심부에 오유가 없다고 가정하면 대부분의 례외는 CPU 가 사용자방식에 있을 
때 발생한다. 실제로 례외는 프로그람작성오유나 오유수정기 에 의해 발생한다.그러 나 핵 
심부방식에서도 페지절환 (page fault ) 례외가 발생할수 있다. 이것은 프로쎄스가 자기의 
주소공간에는 들어가지만 현재주기억에 존재하지 않는 폐지의 주소를 지정한 경우에 일 
어난다. 이런 례외를 처리하는 동안 핵심부는 현재프로쎄스를 보류하고 요청한 패지를 
사용할수 있을 때까지 다른 프로쎄스로 절환할수 있다. 폐지절환례외를 처리하는 핵심부 
조종경 로는 프로쎄 스가 처 리 기 를 다시 할당받자마자 실 행 을 재 개 한다. 페 지 절환례 외 처 리 
기는 더는 례외를 발생시키지 않으므로 례외와 관련하여 조종경로는 최대 2개까지 중첩 
될수 있 다. (첫 번째 는 체 계 호출을 진행 할 때 두번째 는 페 지 절환에 의 해 발생 한다. ) 

례외와는 대조적으로 입출력장치가 발생시키는 새치기는 이것을 처리하는 핵심부조 
종경 로가 현재프로쎄 스를 대 신해 서 동작하더 라도 현재프로쎄 스와 관련된 자료구조를 참 
조하지 않는다. 실제로 새치기가 발생할 때 현재 어떤 프로쎄스가 실행중인지 예측하는 
것은 불가능하다. 

새 치 기 처 리 기 는 다른 새 치 기 처 리 기 와 례 외 처 리 기를 선취 할수 있 다. 반대 로 례 외 처 리 
기는 새치기처리기를 선취할수 없다. 핵심부방식에서 일어날수 있는 유일한 례외는 방금 
전에 설명한 폐지절환이 다. 그러 나 새 치기처 리기는 잠재적 으로 프로쎄 스절환을 일으키는 
가능성을 가진 페지절환을 발생시킬수 있는 어떠한 동작도 하지 않는다. Linux 는 다음 
과 갈은 두가지 주요리유때문에 핵심부조종경로의 중첩을 허용한다. 

■ 프로그람가능한 새치기조종기와 장치조종기의 처리량을 늘이기 위해서이다. 실례 
를 들어 장치조종기가 IRQ 선으로 새치기신호를 발생시켰다고 가정해보자. PIC 는 이것 
을 외부새치기로 변환하고 pic 와 장치조종기는 PIC 가 CPU 로부터 응답을 받을 때까지 
차단된 상태로 남는다. 핵심부조종경로를 중첩함으로써 핵심부는 이전에 발생한 새치기 
를 처리하는 도중이라도 응답신호를 보낼수 있다. 

• 우선순위 가 없는 새 치 기 모형 을 구성 하기 위 해 서 이 다. 새 치 기 처 리 기 는 다른 새 치 기 
를 지연할수 있으므로 하드웨어장치사이에 미리 우선순위를 정할 필요가 없다. 이것은 
핵심부코드를 간단하게 하고 호환성을 높여준다. 

다중처 리기체계 에서는 여 러 핵심부조종경로를 동시 에 실행할수 있다. 나가서 례외 
를 처 리 하는 핵 심부조종경 로는 한 CPU 에서 실행되 다가 프로쎄스절환이 일어난 후 다른 
CPU 로 옮겨져 실행될수도 있다. 
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9. 새치기서술자표 초기화 

이제 Intel 처리기가 하드웨어준위에서 새치기와 례외를 어떻게 다루는지 리해하였을 
것이다. 여기서는 새치기서술자표 ( IDT ) 을 어떻게 초기화하는지 살찌보자. 

앞에서 핵심부는 새치기를 허용하기 전에 IDT 표의 시작주소를 idtr 등록기에 보관하 
고 이 표의 모든 입구점을 초기화해야 한다고 설명하였다. 이런 과제는 모두 체계를 초 
기화하는 동안 이루어진다. 

사용자방식프로쎄스는 int 명령을 사용하여 0에서 255사이의 임의의 벡토르에 해당 
하는 새치기신호를 발생시킬수 있다. 따라서 IDT 를 초기화할 때에는 사용자방식프로쎄 
스가 int 명령으로 모방한 불법새치기와 례외를 막을수 있도록 주의해야 한다. 이것은 새 
치기나 함정문서술자의 DPL 마당을 0으로 설정하여 해결할수 있다. 프로쎄스가 이런 식 
으로 새치기신호를 발생시키려고 하면 조종장치 CPL 값과 DPL 마당을 비교하여 일반보 
호례 외 를 발생 시킨다. 

그러 나 사용자방식 프로쎄 스가 프로그람작성 에 의한 례 외 를 발생 시 켜 야 하는 경 우도 
있다. 이것은 해당 새치기나 함정문서술자의 DPL 마당을 3으로 즉 가장 높은 값으로 설 
정하여 허용할수 있다. 

이제 Linux 에서 이런 방책을 어떻게 구성하는지 보자. 

1) 새치기와 함정，체계문 

앞서 《새 치기서술자표》에서 설명한것처 럼 Intel 은 과제와 새 치기，함정문서술자라 
는 3가지 새치기서술자를 제공한다. 과제문서술자는 Linux 와 관계없지만 새치기와 함 
정문서술자는 새치기서술자표에서 많이 사용된다. Linux 에서는 Intel 과는 조금 다른 
분류법과 용어를 사용하여 이것을 다음과 같이 분류한다. 

새 치 기 문 

사용자방식프로쎄스에서 접근할수 없는 ( DPL 마당이 0인) Intel 의 새치기문. 

모든 Linux 새치기처리기는 새치기문 (interrupt gate ) 을 통해서만 실행할수 있으며 
모두 핵 심부방식으로 제한한다. 

체계문 

사용자방식프로쎄스에서 접근할수 있는 ( DPL 마당이 3인) Intel 의 함정문. 

벡토르 3，4，5，128에 해당하는 례외처리기 4개를 체계문 (system gate ) 을 통해 
실행한다. 따라서 사용자방식에서는 int 3, into , bound , int 0 x 80 이렇게 4 개의 명령 
을 사용할수 있다. 

함정 문 

사용자방식프로쎄스에서 접근할수 없는 ( DPL 마당이 0인) Intel 의 함정문. 

Linux 는 대부분의 례외처리기를 함정문 (trap gate ) 을 통해 실행한다. ( traps.c 참고) 
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IDT 에 문을 넣을 때에는 다음과 같은 구성방식의존적인 함수를 사용한다. 
set _ intr _ gate ( n , addr ) 

n 번째 IDT 입구점에 새치기문을 넣는다. 문에 있는 토막선택기는 핵심부코드의 토 
막선택기로, 편위마당은 새치기처리기주소인 addr 로 설정한다. DPL 마당은 0으로 설정 
한다. 

set _ system_gate ( n , addr ) 

n 번째 IDT 입구점에 함정문을 넣는다. 문에 있는 토막선택기는 핵심부코드의 토막 
선택기로, 편위마당은 례외처리기주소인 addr 로 설정한다. DPL 마당은 3으로 설정한다. 
set _ trap_gate ( n , addr ) 

앞의 함수와 비슷하지만 DPL 을 0으로 설정한다. 

이 함수들은 _ set _ gate () 를 호출하여 대면의 공통성을 실현한다. 

#define _ set_gate ( gate _ addr , type , dpi , addr , seg ) \ 
do { 


int _ dO , _ dl ； \ 

_asm _ volatile _ ("movw %% dx , %% ax \ n \ t " \ 

"movw %4, %%<± x \ n \ t ” \ 

"movl %% eax , %0\ n \ t " \ 

"movl %% edx , %1" \ 

'■ "= m " (*((long *) ( gate _ addr ))), \ 


"= m " (*( l+(long *) ( gate _ addr ))), "=& a " (_ dO ), "=& d " ( — dl ) \ 
: " i " (( short ) (0 x 8000+( dpl «13)+( type «8 )))A 
"3" (( char *) ( addr )), "2" (( seg ) « 16))； \ 

| while (0) 


2) 림시적인 IDT 초기화 

름퓨터 가 실방식 (real mode ) 에서 동작하고있을 때 BIOS 는 ffiT 를 초기화하고 사 
용한다. Linux 에서는 BIOS 함수를 사용하지 않기때문에 일단 Linux 가 체계를 장악한 
후에 IDT 를 주기억 의 다른 령역 으로 옮기 고 두번째 초기 화를 수행한다. 입 구점 이 256 
개인 idt_table 표에 IDT 를 보관하고 idt 변수로 이 IDT 를 가리킨다. 6 B 크기의 
idt_descr 변수에 IDT 의 크기와 주소를 보관한다. 이 변수는 핵심부가 lidt 기호언어명 
령을 사용해서 idtr 등록기를 초기화할 때에만 사용된다. 

핵 심 부초기 화과정 에 서 setup _ idt () 기 호언어 함수를 호출해 서 idt _ table 의 입 구점 
256개를 모두 ignore _ int () 새치기처리기를 가리키는 똑같은 새치기문으로 채운다. 일 
부펜터움모형에서는 사용자방식프로그람이 체계를 멈추게 할수 있는 foo 라는 오유가 있 
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다. Linux 는 이런 CPU 에서 동작할 때 IDT 를 쓰기금지된 폐지틀에 보관하여 이 오유 
를 막는다. 사용자는 핵심부를 를파일할 때 이것을 사용할것인지를 항목으로 선택할수 
있다 .( head.S 참고) 
setupjdt ： 

lea ignore _ int , %edx 

movl $ (_ KERNEL_CS « 16) , %eax 

movw % dx , %ax /* 분구 =0 x 0010= cs */ 

movw $0 x 8 e 00, %dx /* 새치기 문， DPL =0, 기억기에 존재 */ 

lea idt _ table , %edi 

mov $256, %ecx 

rp _ sidt ： 

movl % eax , (% edi ) 
movl % edx , 4 (% edi ) 
addl $8, %edi 
dec %ecx 
jne rp_sidt 
ret 

기호언어로 작성한 ignore _ int () 새치기처리기는 다음과 같은 동작을 수행하는 빈 
운전기 (null handler ) 라고 볼수 있 다. 

1. 일부등록기의 내용을 탄창에 보관한다. 

2. printkO 함수를 호출해서 {Unknown interrupt 》 체계통보를 출력한다. 

3. 등록기 를 탄창에 있는 등록기내 용으로 복구한다. 

4. iret 명령을 실행하여 새치기된 프로그람으로 돌아간다. 

이 처리의 본체를 보면 다음과 갈다. 

ignorejnt ： 

cld 

pushl %eax 
pushl %ecx 
pushl %edx 
pushl %es 
pushl %ds 

movl $ (_ KERNEL _ DS ), %eax 
movl % eax , %ds 
movl % eax , %es 
pushl 16(% esp ) 
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pushl 24(% esp ) 
pushl 32(% esp ) 
pushl 40(% esp ) 
pushl $ int_msg 
call printk 
addl $(5*4 )，%esp 
popl %ds 
popl %es 
popl %edx 
popl %ecx 
popl %eax 
iret 

ignoreJntO 처리기는 절대로 실행되여서는 안된다. 작업대나 일지파일에 
( Unknown interrupt > 통보가 나오면 하드웨 어적 인 문제 가 있거 나(입출력장치 에서 
예상치 못한 새치기발생) 핵심부에 문제가 있음(새치기나 례외를 제대로 처리하지 못하 
고있음)을 의미한다. 이와 같은 림시적인 초기화후에 핵심부는 IDT 에 있는 빈 운전기중 
일부를 의미 있는 함정처리기와 새치기처리기로 교체하는 두번째 단계를 밟는다. 이 작 
업을 하고 나면 IDT 는 조종장치가 발생시키는 서로 다른 례외와 PIC 가 인식한 각 IRQ 
에 대해서 전용새치기나 함정，체계문을 가지게 된다. 

아래에서는 례외와 새치기를 각각 어떻게 처리하는지 자세히 설명한다. 

10. 례외처리 

Linux 는 CPU 가 제기하는 대부분의 례외를 오유상태로 해석한다. 이중 하나라도 
발생하면 핵심부는 례외를 일으킨 프로쎄스에 신호를 보내서 비정상적인 상태가 발생했 
음을 알린다. 례를 들어 프로쎄스에서 0으로 나누기를 하면 CPU 는《나누기 오유》례 
외를 발생시키고 해당 례외처리기는 SIGFPE 신호를 현재프로쎄스에 보내서 복구하는 
데 필요한 일을 하거나 (이 신호용으로 따로 신호처리기를 설정하지 않은 경우) 프로쎄 
스를 중단한다. 

그런데 Linux 에서 하드웨어자원을 더 효률적으로 관리하려고 CPU 례외를 활용하는 
경우가 몇가지 있다. cr 0 등록기의 TS 기발과《장치를 사용할수 없음》례외를 같이 사용 
하여 핵 심부가 CPU 의 류동소수점등록기 에 새 로운 값을 적재 하게 할수 있다. 두번째 경우 
는 프로쎄스에 새로 폐지틀을 할당하는 작업을 가능한 순간까지 미룰 때 사용하는 페지절 
환례외 이 다. 이 례외는 오유일수도 있고 아닐수도 있기때문에 이 처 리기는 복잡하다. 

례외처리기는 다음 세 부분으로 이루어진 표준구조를 가진다. 
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1. 핵 심 부방식탄창에 대 부분의 등록기내 용을 보관한다.(이 부분은 아쌤 블러 로 작성 
되여있다 .) 

2. 고수준 c 함수에서 례외를 처 리한다 . 

3. ret_from_exception() 함수를 호출해서 처리기에서 빠져나온다 . 

례외를 활용하려면 인식한 각 례외를 위한 례외처리기함수로 IDT 를 옳바로 초기화 
해야 한다 . 마스크 할수 없는 새치기와 례외에 관한 모든 IDT 입구점에 최종적인 값 , 즉 
례외를 처리하는 함수를 지정하는것이 trap _init() 함수의 역할이다 . 이것을 위해 
set_trap_gate 와 set_intr_gate, set_system_gate 마크로 를 사용한다 . 
set_trap_gate(0, 技 divide_error) ； 
set_intr_gate(l, &debug) ； 
set_intr_gate(2, &nmi) ； 

set_system_gate(3, &int3) ； /* int3-5 can be called from all */ 

set_system_gate (4, 技 overflow) ； 

set_system_gate (5, 技 bounds) ； 

set_trap_gate(6, &invalid_op) ； 

set_trap_gate(7, 技 device_not_available) ； 

set_task_gate(8, GDT_ENTRY_DOUBLEFAULT_TSS); 

set_trap_gate(9, &coprocessor_segment_overrun) ； 

set_trap_gate(10, 技 invalid_TSS) ； 

set_trap_gate (11, &segment_not_present) ； 

set_t rap_gate (12, 技 stack_segment); 

set_t rap_gate (13, 技 general_protection) ； 

set_intr_gate(14, &page_fault) ； 

set_trap_gate (15, 技 spurious_interrupt_bug) ； 

set_trap_gate (16, 技 coprocessor_error) ； 

set_trap_gate (17, 技 alignment_check) ； 

#ifdef CONFIG_X86_MCE 

set_trap_gate (18, &machine_check) ； 

#endif 

set_trap_gate(19, 技 simd_coprocessor_error) ； 
set_system_gate (SYSCALL_VECTOR, &system_call) ； 
set_call_gate(&default_ldt [0], lcall7) ； 
set_call_gate(&default_ldt [4], lcall27) ； 

이제 례외처리기가 호출될 때 어떤 일이 일어나는지 전형적인 처리기를 통해 알아보자 . 


©變© ©資變©^ 


501 


Linux 핵심부해설서 


1) 례외처리기를 위한 등록기보관 

일반례외처리기의 이름을 handler _ name 이라고 하자. (모든 례외처리기의 실제 이 
름은 방금의 코드에 나타나있다.) 각 례외처리기는 다음 기호명령으로 시작한다. 

handler _ name ： 

pushl $0 /* 일부례외에서만 */ 

pushl $ do _ handler_name 

jmp _ error_code 

례외가 발생할 때 조종장치가 자동으로 탄창에 하드웨어오유코드를 넣지 않으면 해 
당 기호언어코드는 push $0명령을 추가하여 탄창에 빈값을 넣는다. 다음으로 고수준 C 
함수의 주소를 탄창에 넣는다. 이 함수이름은 례외처 리기이름앞에 do _ 라는 앞붙이를 불 
인것이다. 

error _ code 라는 표가 붙은 기호언어코드토막은《장치를 사용할수 없음》례외를 제 
외한 모든 례외처리기에서 똑같이 사용한다. 

이 코드는 다음과 같은 단계를 밟는다. 

1. 고수준 C 함수에서 사용할수도 있는 등록기를 탄창에 보관한다. 

2. cld 명령을 실행 하여 eflags 등록기의 방향기발 (direction flag ) DF 를 지운다. 이 
렇 게 하면 문자렬 명 령 (73) 에 서 edi 와 csi 가 자동증가한다. 

3. 탄창의 esp + 36위 치 에 보관되 여있는 하드웨 어 오유코드를 eax 에 보관하고 이 탄 
창위치의 값을 -1 로 설정한다. 0 x 80 례외를 다른 례외와 구별할 때 이 값을 사용한다. 

4. edi 등록기를 탄창의 esp +32 위치에 보관되여있는 고수준 do _ handler _ name () 
◦함수의 주소로 설정하고 es 등록기의 내용을 이 탄창위치에 보관한다. 

5. ds 와 es 등록기를 핵심부자료토막선택기로 설정하고 ebx 등록기를 현재프로쎄스 
서술자의 주소로 설정한다 

6. 고수준 C 함수에 전달할 파라메터 즉 례외의 하드웨어오유코드와 탄창에서 사용자 
방식등록기를 보관한 곳의 주소를 탄창에 보관한다. 

7. edi 에 보관한 고수준 C 함수의 주소로 함수호출을 한다. 

마지막단계를 실행하여 함수를 호출하면 탄창에는 (웃쪽부터) 다음과 같은 내용이 
들어 있 다. 

• c 함수를 완료할 때 실행할 되돌아갈 명령주소 
■ 탄창에 보관한 사용자방식등록기주소 
- 하드웨어오유코드 
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2) 례외처리기로의 진입과 복귀 

이미 설명한것처럼 례외처리기를 구성하는 C 함수명은 항상 처리기이름앞에 do _ 라는 
앞붙이를 붙인것이다. 이 함수의 대부분은 하드웨어오유코드와 례외벡토르를 current 의 
프로쎄스서술자에 보관하고 이 프로쎄스에 적절한 신호를 전달한다. 이것은 다음과 같이 
한다. 

current -> tss . error_code = error _ code ； 
current -> tss . trap _ no = vector ； 
force_sig ( sig _ number , current ) ; 

현재프로쎄스는 례외처리기를 마친 직후에 신호를 처리한다. 프로쎄스가 자기의 신 
호취급기를 등록하였다면 사용자방식에 있는 처리기에서 신호를 처리하고 그렇지 않으면 
핵심부방식에서 처리한다. 후자의 경우 핵심부는 보통 프로쎄스를 소멸한다. 례외처리기 
가 보내는 신호의 목록은 이미 표 5-1 에서 보여주었다. 

례외처리기는 항상 례외가 사용자방식에서 발생했는지 아니면 핵심부방식에서 발생 
했는지 검 사한다. 후자의 경 우라면 프로쎄 스가 체 계 호출에 잘못된 파라메터 를 전달했는 
지 검사한다. 핵심부방식 에서 발생한 다른 례외는 핵심부오유이다. 이 경우 례외 처 리기 
는 핵심부가 오동작하고있다고 판단하고 하드디스크에 있는 자료를 망가뜨리지 않으려고 
die () 함수를 호출해서 모든 CPU 등록기의 내용을 작업대로 출력하고(이것을 핵심부웁스 
(kernel oops ) 라고 한다.) do _ exit () 를 호출하여 current 프로쎄스를 완료한다. 

례외 처 리 기를 구성 하는 C 함수가 끝나면 다음 기 호언어 코드부분으로 조종권이 넘 어 간다. 

addl $8, %esp 

jmp ret _ from_exception 

이 코드는 탄창에 보관한 사용자방식등록기의 주소와 하드웨어오유코드를 탄창에서 
꺼낸 후 ret _ from _ exception () 함수로 jmp 명령을 실행한다. 

11. 새치기처리 

대부분의 례외는 례외를 발생시킨 프로쎄스에 Unix 신호를 보내서 처리한다. 따라 
서 례외가 발생할 때 취하는 실질적인 행동은 프로쎄스가 신호를 받을 때까지 미루어져 
핵심부는 례외를 빠르게 처리할수 있다. 그러나 이런 접근방법은 새치기에는 통하지 않 
는다. 왜냐면 새치기와 관련된 프로쎄스(례를 들면 자료전송을 요청한 프로쎄스)가 보류 
되고 한참후에 전혀 무관계한 프로쎄스가 실행중일 때 새치기를 수신하는 경우가 빈번하 
기때문이 다. 따라서 현재프로쎄스에 Unix 신호를 보내면 안된다. 

새치기처리방법은 새치기의 류형에 따라 달라진다.여기서는 새치기를 크게 3가지 
류형으로 구분한다. 
o 입출력새치기 

여 러 입 출력 장치 는 주의 ( attention ) 를 필 요로 한다. 해 당 새 치 기 처 리 기 는 장치 를 
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조사하여 어떤 동작을 취해야 하는지 결정해야 한다. 

效 시 계 새 치 기 

국부 APIC 시계이든 외부시계이든 일부시계는 새치기를 발생시킨다. 이 류형의 새치 
기는 핵심부에 지정한 시간간격이 지났음을 알려준다. 이 새치기는 대부분 입출력새치기 
로 처 리 하며 시계새 치 기 특유의 특징을 설명한다. 

o 처리기 간새 치 기 

한 CPU 가 다중처 리기체계 에 있는 다른 CPU 에 새 치기 를 발생 시킨다. 《 처 리기 간 
새 치 기 처 리》에 서 이 류형 의 새 치 기 를 다룬다. 

1) 입출력새치기처리 

일 반적 으로 입 출력 새 치기 처 리기는 동시 에 여 러 장치 에 봉사를 제 공할수 있도록 유연 
해야 한다. 례를 들어 PCI 모선구조에서는 여러 장치가 갈은 IRQ 선을 공유할수 있다. 
이것은 새치기벡토르만으로는 어느 장치에서 새치기가 발생하였다고 확실히 말할수 없다 
는 의미이다. 표 5-3 의 실례에서는 USB 포구와 음성카드에 폭같은 벡토르 43 번을 할당 
하고있다. 그렇지만 오래된 PC 구조에 있는 몇몇 하드웨어장치는(실례로 ISA 장치) 자기 
의 IRQ 선을 다른 장치와 공유할 경우 제대로 동작하지 않는다. 새치기처리기는 다음 
두가지 별개의 방식을 리용하여 유연하게 동작한다. 

o IRQ 공유 

새 치 기 처리기는 새 치 기 봉사루린 (ISR, Interrupt Service Routine) 을 여러 개 실 
행한다. 각 ISR 는 IRQ 선을 공유하는 장치 하나와 련관된 함수이다. 어떤 창치가 IRQ 
를 발생시켰는지 미리 알수 없기때문에 어떤 장치가 주의를 필요로 하는지 확인하려고 
각 ISR 를 모두 실행한다. 그래서 새 치기를 발생시킨 장치 이면 필요한 모든 동작을 한다. 

o IRQ 동적할당 

가능한 나중까지 장치가 IRQ 선을 사용하는것을 미룬다. 례를 들어 사용자가 유연 
성장치로 접근할 때에만 유연성장치의 IRQ 선을 할당한다. 이렇게 해서 같은 IRQ 선을 
공유할수 없는 하드웨어장치라도(동시가 아니라면) 여러 장치가 같은 IRQ 벡토르를 사 
용할수도 있다. 

새치기가 발생할 때 해야 하는 모든 작업이 똑같이 급하지는 않다. 사실 새치기처리기 
자체는 여러 종류의 일을 하기에 적합하지 않다. 새치기처리기가 실행중일 때에는 해당 IRQ 
선으로 오는 새치기신호를 무시하므로 시간이 오래 걸리면서도 중요하지 않은 작업은 나중으 
로 미루어야 한다. 가장 중요한 사실은 새치기처리기를 실행할 당시의 현재프로쎄 스는 항상 
TASK_RUNNING 상태에 있어야 하며 그렇지 않으면 체계가 멈출수도 있다는 점이다. 따라 
서 새치기처리기에서는 디스크 입출력작업처럼 차단 (bloc 吐 ng) 을 일으킬수 있는 코드를 실행 
하면 안된다. Linux 는 새치기가 발생할 때 처러할 작업을 3 부류로 분류한다. 

o 중요함 

PIC 에 새치기에 대한 응답을 보내거나 PIC 나 장치조종기를 다시 프로그람화하거나 


504 


透資© @資變©^ 


채 5 장. 입출형장지 


장치와 처리기가 동시에 접근하는 자료구조를 갱신하는 등의 작업. 이것은 가능한 빨리 
수행해 야 하기때문에 중요하며 빨리 처 리할수 있다. 중요한 작업은 새 치기처 리기내 에서 
마스크할수 있는 새 치기를 금지한 상태 에서 즉시 실행한다. 
o 중요하지 않음 

처리기만 접근하는 자료구조를 갱신하는 등의 작업.(례를 들면 건반의 건을 눌렀을 
때 건반주사코드를 읽는 작업) 이 작업 역시 빨리 처리할수 있으며 새치기처리기내에서 
새 치기를 허용한 상태 에서 즉시 실행한다. 
o 중요하지 않으며 미룰수 있음 

완충기내용을 프로쎄스의 주소공간으로 복사하는 등의 작업.(례를 들면 건반완충기 
를 말단으로 리용하는 프로쎄스에 전달하는 작업) 이 작업은 핵심부동작에 영향을 미 치 
지 않으면서 긴 시간동안 미룰수 있다. 이와 련관된 프로쎄스만이 계속 자료를 기다릴뿐 
이다. 중요하지 않으면서 미률수 있는 작업은 《쏘프트 IRQ 와 소과제, 하반부》에서 
다루는 별도의 함수를 러용하여 수행한다. 

어떤 회 로에서 발생한 새 치기인지 상관없이 모든 입출력새 치기처 리기는 다음 4가지 
기 본적 인 작업 을 수행한다. 

1. IRQ 값과 등록기 내용을 핵 심부방식탄창에 보관한다. 

2. IRQ 선을 봉사하는 PIC 에 응답신호를 보내서 다음새치기를 발생시킬수 있게 한다. 

3. IRQ 를 공유하는 모든 장치와 관련된 새 치기봉사루린을 실행한다. 

4. ret _ from _ intr () 주소로 이행하여 완료한다. 

#define BUILD_INTERRUPT ( name , nr ) \ 

ENTRY ( name ) \ 

pushl $ nr -256； \ 

SAVE_ALL \ 

call smp _/**/ name ； \ 

jmp ret _ from _ intr ； 

IRQ 선의 상태와 새 치기가 발생할 때 실행할 함수를 나타내 려면 여 러 서술자가 필 
요하다. 그림 5-3 은 하드웨어회로와 새치기를 처리하는 쏘프트웨어함수의 관계를 도식 
적으로 보여준다. 이 함수는 다음에 설명한다. 
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하드웨 어 



그림 5-3. 새치기운전 


2) 새치기벡토르 

표 5-2 에서 보는것처럼 물리적인 IRQ 에 32-238 범위에 있는 아무 벡토르나 할당 
할수 있다. Linux 는 체계 호출을 구성하는데 128번 벡 토르를 사용한다. 

IBM 호환 PC 구조에서 몇몇 장치는 정적으로 특정 IRQ 선에 련결해야 한다. 

■ 간격시계 (interval timer ) 장치 를 IRQO 선에 련결해 야 한다. 

• 종속 8259 A PIC 를 IRQ 2 선에 련결해 야 한다. (이제는 향상된 PIC 를 사용하지만 
Linux 는 여전히 8259 A 방식 PIC 를 지원한다). 

• 외부수학보조처리기를 IRQ 13 선에 련결해야 한다. (최근에 나온 80 x 86 처리기에 
서는 이런 장치를 더는 사용하지 않지만 Linux 는 여전히80386모형을 지원한다.) 

■ 일반적으로 입출력장치를 그 수가 제한된 IRQ 선으로 련결할수 있다.(사실은 
IRQ 공유를 지원하지 않는 이전 PC 를 사용하면 이미 있는 하드웨어장치와 IRQ 가 충돌 
해 서 새 카드를 설치할수 없을수도 있다. ) 
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표 5-2. _ Linux 에서 AKX [7[ ffl|ga 


벡토르범위 

용 도 

0-19(0 x 0-0 x 13) 

마스크블가능한 새치기와 례외 

20-31 (0 xl 4-0 xlf ) 

예약 

32-127(0 x 20-0 x 7 f ) 

외 부새 치 기 ( IRQ ) 

128(0 x 80) 

체계 호출을 위 한 프로그람에 의한 례외 

129-238 (0 x 81-0 xEE ) 

외 부새 치 기 ( IRQ ) 

239(0 xEF ) 

국부 APIC 시 간새 치 기 

240-250 ( OxFO-OxF A ) 

Linux 가 마지 막에 사용하기 위 해 예 약함 

251-255 ( OxFB - OxFF ) 

프로쎄 스사이 새 치 기 


IRQ 를 설정할수 있는 장치의 IRQ 선을 선택하는 방법은 다음 3가지가 있다. 

■ 몇몇 하드웨어설정꼭지 ( jumper ) 설정을 통해 선택. (매우 오래된 장치카드에만 해 
당한다.) 

■ 장치를 설치할 때 실행하는 장치에 따라 오는 유털리리프로그람으로 선택. 이 프 
로그람은 사용자가 사용가능한 IRQ 번호중에서 선택하도록 하거나 체계를 조사해서 스 
스로 사용가능한 값을 결정한다. 

• 체 계를 시 작할 때 실행하는 하드웨 어적 인 통신규약에 의해 선택 . 이 런 체계 에서 
주변장치는 어떤 새치기선을 사용할 준비가 되여있는지 선언한다. 최종값은 협상을 통해 
가능한 충돌을 줄이는쪽으로 정한다. 일단 이 작업 이 끌나면 각 새 치기처 리기는 장치의 
특정입 출력 포구에 접 근하는 함수를 사용하여 할당된 IRQ 값을 읽 을수 있 다. 례 를 들어 
주변장치 호상련결 ( PCI:Periplietal Component Interconnect ) 표준과 호환하는 장치 
용구동프로그람의 경우 pci _ read _ config _ byte () 같은 함수를 사용하여 장치의 설정공 
간 (configuration space ) 에 접근할수 있 다. 표 5-3 은 어떤 pc 에 존재 할수 있는 장치 
와 IRQ 의 임의의 배치를 보여준다. 

핵심부는 새치기를 허용하기 전에 입출력장치에 대응하는 IRQ 번호를 찾아야 한다. 
그렇 지 않다면 례 를 들어 SCSI 장치 에 대 응하는 벡 토르가 몇번 인지 모르는 상태 에 서 어 
떻게 장치 에서 오는 새 치기신호를 처 리할수 있을것 인가? 각 장치구동프로그람은 초기화 
를 할 때 이 런 대응관계를 만들어 야 한다. 
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표 5-3. 입출력장지에 IRQ 를 g 당하는 실례 


IRQ 

INT 

하드웨어장치 

0 

32 

시계 

1 

33 

건반 

2 

34 

PIC 중첩 

3 

35 

두번째 직렬포구 

4 

36 

첫번째 직렬포구 

6 

38 

유연성 디 스크 

8 

40 

체 계 박자 

10 

42 

망대면부 

11 

43 

USB 포구, 음성카드 

12 

44 

PS /2 마우스 

13 

45 

수학보조프로쎄 스 

14 

46 

EIDE 디스크조종기의 첫번째 사슬 

15 

47 

EIDE 디스크조종기의 두번째 사슬 


3) IRQ 자료구조 

상태전이가 일어나는 복잡한 연산을 론의하기 전에 먼저 핵심자료를 어디에 보관하 
는지 리해하면 도움이 된다. 따라서 여기서는 새치기처리를 지원하는 자료구조와 이것을 
여 러 서술자에서 어떻 게 배 치하는지 설명한다. 그림 5-4 는 IRQ 선의 상태를 나타내는 
주요서술자사이의 관계를 도식적으로 보여준다.(이 그림에서는 쏘프트 IRQ 와 소과제， 
하반부를 처 리 하는데 필 요한 자료구조는 표시하지 않았다. 이 자료구조는 이 뒤 부분에 서 
다룬다.) 


0 i 63 hw_interrupt_type 



그림 5-4. IRQ 서술자 
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irq_desc 는 NR_IRQS (보통은 224) 개의 irq _ desc_t 서술자의 배렬이다. 이 서술자 
에 는 다음과 같은 마당이 들어있 다. 
status 

IRQ 선의 상태 를 나타내 는 기 발의 접 합이다. (표 5-4 참고) 
handler 

IRQ 선을 처려하는 PIC 회로를 나타내는 hw _ interrupt_type 서술자에 대한 지적자 
이 다. 

action 

IRQ 가 발생할 때 호출할 새치기봉사루린을 나타낸다. 이 마당은 IRQ 와 관련된 
irqac 吐 on 서술자목록의 첫번째 요소를 가리킨다. irqac 吐 on 서술자는 뒤에서 간단하게 설 
명 한다. 


표 5-4. _ IRQ 선의 상태를 나 cF 내는 기발 


기발이름 

설 명 

IRQJNPROGRESS 

해 당 IRQ 용조종기 를 실 행 중이 다. 

IRQ_DISABLED 

장치 구동프로그람에 서 일부러 IRQ 선을 금지 하였 다. 

IRQ.PENDING 

해 당선에서 IRQ 가 발생하여 PIC 가 응답했지만 핵심부가 이것 
을 아직 처려하지 않았다. 

IRQ_REPLAYIRQ 

IRQ 선을 금지했지 만 PIC 가 그 전에 발생 한 IRQ 에 대 한 응답 

을 하지 않았다. 

IRQ_AUTODETECT 

핵심부가 하드웨 어 장치를 조사하는 과정 에 IRQ 선을 사용중이 다. 
핵심부가 하드웨 어장치를 조사하는 과정 에서 IRQ 선을 사용중 

IRQ_WAITING 

이 다. 그러 고 해 당새 치기 가 아직 발생하지 않는다. 

80 x 86 기본방식에서는 사용하지 않는다. 

IRQ_LEVEL 

사용하지 않는다. 

IRQ_MASKED 

IRQ _ PER_CPU 

80 x 86 기본방식에서는 사용하지 않는다. 


depth 

IRQ 선을 허 용하고있으면 0，한번 이 라도 금지했으면 정 수값이 다. disable _ irq () 나 
disable _ irq _ nosync () 함수를 호출할 때마다 이 마당을 증가시킨다. 이 함수는 값을 증 
가시키기 전에 dep 比 i 마당의 값이 0이면 IRQ 선을 금지시키고 IRQ _ DISABLED 기발을 
설정한다. 반대로 enable _ irq () 함수를 호출할 때마다 이 마당을 감소시키며 dep 比 i 가 0 
이 되면 IRQ 선을 허용하고 IRQ _ DISABLED 기 발을 지운다. 
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lock 

IRQ 서 술자에 대 한 접 근을 직 렬 화할 목적 으로 사용하는 스핀잠그기 (spin lock) 이 
다. 체계초기화과정에서 init_IRQ() 함수는 각 IRQ 주요서술자의 status 마당을 
IRQ_DISABLED 로 설정한다. 다음 init_IRQ 0 함수는 IDT 에 있는 림시새치기문을 새 
것으로 교체한다. 이것은 다음문장으로 한다. 

for (i = 0 ； i < (NR_VECTORS - FIRST_EXTERNAL_VECTOR); i++) { 
int vector = FIRST_EXTERNAL_VECTOR + i ； 
if 效 >= NRJRQS) 
break ； 

if (vector != SYSCALL_VECTOR) 

setjntr_gate (vector, interrupt [i]) : 

이 코드는 interrupt 배렬에서 새치기문으로 설정할 새치기처리기의 주소를 알아낸 
다. IRQ 용새치기처리기의 이름은 IRQn_interrupt() 이다. (뒤에 나오는 《새치기처리 
기를 위한 등록기보관》참고) 

새 치 기 문중 일부는 전혀 사용하지 않고 어떤것은 다중처 리 기 체 계 에 서 만 사용하며 결 
국 항상 사용하는것은 일부이다. 따라서 새치기문가운데서 일부를 최종값으로 설정하지 
만 나머지는 그렇지 않는다. 좀더 자세히 살펴보자. 

• 처 음 16 개 의 IRQ (백 토르 32-47) 용문을 최 종값으로 설정한다. 

■ 다중처 러기체계에서는 처 리기 간새 치기용문과 국부 APIC 시계새 치기용문도 옳바로 
설정한다.(뒤에 나오는《새치기봉사 루린》참고) 

• 벡토르 128 번은 체계호출의 프로그람작성 에 의한 례외용으로 사용하기때문에 다 
치지 않는다. 

• 나머지문은 pci 모선에 련결된 장치 에서 발생하는 새 치기용으로 예 약되여있다. 이 
경우 irq_desc 의 handler 항목을 m_irq_type 이라는 빈값처리기로 초기화한다. 

Linux 는 이 장의 시 작부분에 서 설명한 8259A 소자외 에 도 SMP IOAPIC 나 
PILX4 의 내부 8259 PIC, SGI 의 Visual Workstation Cobalt (IO-)APIC 같은 여러 
PIC 희로를 지원한다. Linux 는 이런 장치를 똑같은 방식으로 다루려고 PIC 의 이름과 
PIC 표준메쏘드 7 개로 이루어진 PIC 객체를 사용한다. 이런 객체지향적인 접근의 우점은 
장치가 체계에 있는 PIC 의 종류에 신경쓰지 않아도 된다는것이다. 각 장치에서 보기에 
는 새 치기발생지가 옳바른 조종기로 련결되 여있다. PIC 객체를 정의하는 자료구조는 
hw_interrupt_type 이 다. (hw_irq_controller 라고도 부론다. ) 

구체 적 으로 설명 하기 위해 8259A PIC 두개를 가진 단일처 리 기체계 로서 표준 IRQ 
16 개를 지원하는 를퓨터가 있다고 가정하자. 이 경우 irq_desc_t 16 개 각각에 있는 
handler 마당은 8259A PIC 의 서술자인 i8259A_irq_type 변수를 가리킨다. 이 변수는 
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다음과 같이 초기화된다. 

struct hw _ interrupt_type i 8259 A _ irq_type = { 

" XT - PIC ", 
startup _8 25 9 A _ irq , 
shutdown _8259 A _ irq , 
enable _8259 A _ irq , 
disable _8 2 5 9 A _ irq , 
mask _ and _ ack _8 259 A , 
end _8259 A _ irq , 

NULL 

}； 

이 구조체의 첫번째 마당은 PIC 의 이름인 《 XT - PIC 》 이 다. 그 다음에는 PIC 를 
프로그람화하는데 사용하는 함수 6개에 대한 지적자가 있다. 처음 두 함수는 각각 각 
소자의 IRQ 선을 시 작하고 끝내는 함수이다. 그러 나 8259 A 소자의 경우 이 두 함수는 
새치기선을 허용하고 금지하는 세번째와 네번째 함수와 동일하다. 
mask _ and _ ack _8259 A () 함수는 8259 A 의 입출력포구에 적절한 값을 보내서 수신한 
IRQ 에 대한 응답을 한다. end _8259 A _ irq () 함수는 IRQ 선의 새치기처리기를 끌마칠 
때 호출하는 함수이 다. 마지 막 set_affinity 메 쏘드는 NULL 이 다. 이 함수는 다중처 리 
기체 계 에서 CPU 와 특정 IRQ 와의 친화력 ( affinity ) 즉 CPU 가 특정 IRQ 를 처 리 할수 있 
도록 허가하는것을 정의할 때 사용한다. 

앞서 설 명한것 처 럼 여 러 장치 가 한 IRQ 를 공유할수도 있 다. 따라서 핵 심 부는 특정 
하드웨어장치와 특정새치기를 참조하는 irqaction 서술자를 관리한다. 각 서술자에는 다 
음마당이 들어있 다. 

handler 

입출력장치용새치기봉사루린을 가리킨다. 이것이 여러 장치가 똑갈은 IRQ 를 공유 
할수 있게 하는 핵심마당이다. 

flags 

IRQ 선과 입출력장치사이의 관계를 설명한다. (표 5-5 참고) 

name 

입 출력 장치의 이 름이 다. (/ proc/interrupts 파일을 읽으면 나오는 봉사중인 IRQ 
목록에서 이 이름을 볼수 있다.) 
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표 5-5. I _ rqaction 서술자의 기발 


기발 이름 

설명 

SA INTERRUPT 

새치기를 금지한 상태에서 처리기를 실행해야 한다. 

SA SHIRQ IRQ 

선을 다른 장치와 공유할수 있도록 허용하는 장치 이다. 

SA _ SAMPLE_RA 

NDOM 

이 장치에서는 사건이 불규칙적으로 일어난다고 생각해도 
된다. 따라서 핵심부의 임의의 ( random ) 수자발생기에서 이 
장치를 사용할수 있다. (사용자는 / dev / random 과 
/ dev / urandom 장치파일에서 임의의 수자를 가져오는 방식으 
로 이 기능을 리용할수 있다. ) 


dev_id 

입 출력 장치 에 서 사용하는 비 공개 ( private ) 마당이 다. 일 반적 으로 입 출력 장치 자체 를 
구별하거나 (례를 들어 주번호 (major number ) 와 부번호 (minor number ) 값일수 있 
다.)장치구동프로그람의 자료를 가리킨다. 

next 

irqaction 서술자목록의 다음항목을 가리킨다. 목록에 있는 항목은 같은 IRQ 를 공 
유하는 하드웨 어장치를 가러킨다. 

마지막으로 체계에 있는 각 CPU 마다 하나씩 NR_CPU 개 입구점을 가지는 
irq _ stat 배렬이 있다. 각 입구점의 형은 irq _ cqustat _ t 이며 핵심부가 모든 CPU 가 현재 
하는 일을 추적할수 있도록 몇개의 계수기와 기발을 가진다. 여기 있는 중요한 마당을 
접근할 때 에는 CPU 의 론리번호(즉 배 렬에서의 색 인)를 파라메터로 받는 몇 가지 마크로 
를 사용한다. 

자세히 살펴보면 local _ irq _ count ( n ) 마크로는 배렬의 n 번째 항목의 
_ local _ irq_count 마당을 반환한다. 이 마당은 CPU 에서 몇개의 새치기처리기가 쌓여있 
는지 즉 시작하였다가 아직 끝나지 않은 새치기처리기가 몇개인지 나타내는 계수기이다. 

4) 다중처리기체계에서 IRQ 분배 

Linux 는 대칭형다중처 리 ( SMP , Symmetric Multiprocessing ) 모형을 준수한다. 
이 말은 기본적으로 핵심부는 특정 CPU 를 다른 CPU 보다 먼저 선택해서는 안된다는 의 
미이다. 그 결과 핵심부는 하드웨어장치에서 오는 IRQ 신호를 모든 CPU 사이에서 원형 
( round - robin ) 방식으로 분배하도록 노력한다. 따라서 모든 CPU 는 입출력새치기를 봉 
사하는데 거의 비숫한 비률로 실행시간을 소모한다. 

앞서 《 향상된 프로그람가능한 새 치 기조종기》에서 다중 APIC 체 계 는 CPU 사이 에 
서 IRQ 신호를 동적으로 분배하는 복잡한 수법을 가지고있다고 하였다. 따라서 원형분 
배방책을 구성하기 위해 Linux 핵심부가 해야 할일은 거의 없다. 

체 계 기동을 하는 동안 동작하는 CPU 는 setup _ IO _ APIC _ irqs () 함수를 실행하여 
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입출력 APIC 소자를 초기화한다. 

여 기서 입출력 하드웨 어 장치 에서 발생하는 모든 IRQ 신호값을 가장 낮은 우선순위 
방책에 따라 체계에 있는 각 CPU 로 전달하도록 새치기재지정표에 있는 입구점 24 개를 
설정한다. 다음 체계기동을 하는 동안 모든 CPU 는 setup_local_APICO 함수를 실행하 
여 국부 APIC 를 초기 화한다. 특히 각 소자의 과제 우선순위 등록기 (TPR, Task 
priority Register) 를 CPU 가 우선순위에 상관없이 어떤 종류의 IRQ 신호라도 처리하 
겠다는것을 의미하는 고정된 값으로 설정한다. Linux 핵심부는 초기화를 한 후 이 값을 
절대 바꾸지 않는다. 

모든 과제우선순위등록기는 값이 같기때문에 모든 CPU 는 우선순위가 항상 갈다, 
다중 APIC 체계는 이 동등상태를 파괴하기 위해 앞에서 설명한 국부 APIC 의 중재우선순 
위등록기의 값을 사용한다. 이 값은 새치기가 발생한 후에 자동으로 바뀌기때문에 IRQ 
신호를 모든 CPU 사이 에 서 균등하게 분배한다. 

간단히 말해서 하드웨어장치가 IRQ 신호를 발생시키면 다중 APIC 체계는 CPU 중 
하나를 선택 해서 해 당 국부 APIC 로 신호를 전달하여 해 당 CPU 에 새 치 기를 발생시킨 
다. 다른 모든 CPU 는 이 사건을 전달받지 않는다. 이 모든 일이 하드웨어에 의해서 이 
루어지므로 핵 심부는 다중 APIC 체 계를 초기화한 후에는 이 에 신경쓸 필요가 없다. 

5) 새 치기 처 리 기를 위한 등록기보관 

CPU 는 새치기를 수신하면 IDT 의 해당 문에서 찾은 주소에 있는 코드를 실행하기 
시작한다.(앞에서 나온《새치기와 례외의 하드웨어적인 처리》참고) 

다른 문맥절환과 마찬가지로 등록기를 보관하기 위해 핵심부개발자는 좀 복잡한 코 
딩작업 을 해 야 한다. 등록기 보관과 복구는 기 호언어 코드를 리 용해 서 해 야 하는데 이 런 
연산을 할 때 처리기는 C 함수를 호출하고 C 함수에서 돌아오는것처럼 여기기때문이다. 
여 기 에서 는 등록기 를 다루는 기 호언어작업 을 먼저 설명 하고 이 어서 호출하는 C 함수를 
위해 필요한 사항을 살펴보자. 등록기보관은 새 치기처리기 에서 처음으로 수행하는 과제 
이다. 이미 설명한것처럼 IRQn 에 대한 새치기처리기는 IRQn_interrupt 이고 이 주소 
는 해 당 IDT 입 구점 에 있는 새 치 기 문에 들어 있 다. 

단일처리기체계에서는 각 IRQ 번호마다 하나씩 똑같은 BUILD_IRQ 마크로를 16 번 
사용하여 서로 다른 새치기처리기 16 개의 입구점 (entry point) 을 만든다. 다중처리기 
체계에서는 이 마크로를 14X16 번 사용하여 총합 새치기처리기 224 개의 입구점을 만든 
각 마크로는 다음기호언어코드로 확장된다. 

IRQn_interrupt : 

pushl $n-256 

jmp common_intermpt 는 새치기에 해당하는 IRQ 번호에서 256 을 던 값을 탄창에 
보관한다. 이 렇 게 하면 모든 새 치 기 처 리 기 에 서 이 번호를 참조하는 똑같은 코드를 사용할 
수 있다. BUILD_COMMON_IRQ 마크로에 공통코드가 있으며 이 마크로는 다음기호 
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언어코드로 확장된다. 
common_interrupt : 

SAVE_ALL 

call do_IRQ 

jmp $ret_from_intr 

SAVE_ALL 마크로는 다음코드가 된다. 

cld 

push %es 

IRQ 번호에서 256 을 빼면 짝수가 된다. 흘수는 체계호출을 나태내는것으로 예 약하 
고있 다. 

push %ds 
pushl %eax 
pushl %ebp 
pushl %edi 
pushl %esi 
pushl %edx 
pushl %ecx 
pushl %ebx 

movl $ — KERNEL_DS, %edx 
movl %edx, Ids 
movl %edx, les 

SAVE_ALL 은 조종장치가 이미 자동으로 보관한 eflags 와 cs, eip, ss, esp 등록 
기 (앞에 서 살펴 본 《 새 치 기 와 례 외 의 하드웨 어 적 인 처 리》참고) 를 제 외 하고 새 치 기 처 리 
기에서 사용할수 있는 모든 CPU 등록기를 탄창에 보관한다. 그리고 나서 ds 와 es 를 핵 
심부자료토막의 값으로 설정한다. BUILD_COMMON_IRQ 는 등록기를 보관한 후 
do_IRQ() 함수를 호출한다. do_IRQ() 함수에서 ret 명령을 실행하면(즉 함수를 끝마치 
면) ret_from_intr() 로 조종이 넘어간다. (뒤에 나오는 《 새치기와 례외로부터 복귀》 
참고) 

6) do_lRQ() 함수 

do_IRQ() 는 새치기와 련결된 모든 새치기봉사루린을 실행하기 위해 호출하는 함수 
이다. 이 함수를 시작할 때 핵심부탄창에는 디음과 같은 내용이 우에서부터 차례로 들어 
있 다. 

■do_IRQ() 를 마치고 돌아갈 주소 (ret_from_intr() 의 시 작주소) 

• SAVE_ALL 로 보관한 등록기 값들 
- 변환한 IRQ 번호 
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■ 새치기가 발생했을 때 조종장치가 자동으로 보관한 등록기 

C 를파일 러 는 모든 파라메터 를 탄창의 맨우에 배 치하므로 do _ IRQ () 함수는 다음과 
같이 정의한다. 

unsigned int do_IRQ (struct pt_regs regs ) 
pt _ regs 구조체에는 마당이 15 개 있다. 

■ 처음 9개 마당은 SAVE _ ALL 로 보관한 등록기에 해당한다. 

• 10번째 마당은 orig _ eax 로 참조하는 마당으로 변환한 IRQ 번호이 다. 

■ 나머지마당은 조종장치가 자동으로 보관한 등록기에 해당한다. 
do _ IRQ () 함수는 다음코드와 동일하다. 

int irq = regs . orig_eax & Oxff ； 
spin_lock (& ( irq_desc [ irq ]. lock )) ； 
irq_desc [ irq ]. bandler -> ack ( irq ) : 

irq _ desc [ irq],status &=~( IRQ_REPLAY | IRQ _ QAITING ) : 
irq_desc [ irq ]. status | = IRQ _ PENDING ； 

if (!( irq _ desc [ irq].status & ( IRQ_DISABLED | IRQJNPROGRESS ))&& 
irq_desc [ irq ]. action ) { 

irq_desc [ irq ]. status | = IRQ_INPROGRESS ; 
do { 

irq_desc [ irq ]. status 技 = ~ IRQ _ PENDING ； 
spin _ unlock (& ( irq_desc [ irq ]. lock )) : 
handle _ IRQ _ event ( irq , Sregs , irq_desc [ irq ]. action ) : 
spin_lock (& ( irq_desc [ irq ]. lock )) : 

} while ( irq _ desc [ irq].status & IRQ _ PENDING ) : 
irq_desc [ irq ]. status &=~ IRQ _ INPROGRESS : 

} 

irq_desc [ irq ]. handler->end ( irq ) : 
spin_unlock (& ( irq_desc [ irq ]. lock )) : 
if ( softirq—pending ( smp _ processeor_id ())) 
do_softirq () : 

맨 먼저 doJRQO 함수는 탄창을 통해 전달한 파라메터에서 IRQ 백토르를 알아내서 
이것을 국부변수 irq 에 보관한다. 이 값을 irq _ desc 배 렬 ( IRQ 주서술자)에 있는 옳바른 
항목을 접근하는 색 인으로 사용한다. 

pc _ regs 구조체에는 함수를 마치고 돌아갈 주소인 ret _ from _ intr () 은 들어가지 않 
는다. 왜냐면 C 콤파일러는 돌아갈 주소가 탄창의 맨 득대기에 있다고 생각하면 파라메 
터 를 지 정 하는 명 령 을 만들기 때 문이 다. 
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핵 심 부는 IRQ 주서 술자에 접 근하기 전에 해 당하는 스핀잠그기 (spin lock) 를 얻 는다. 
스핀잠그기는 서로 다른 CPU 에서 동시에 접근하는것을 막는다. (단일처 리기체계에서 
spin_lock() 함수는 아무일도 하지 않는다.) 다중처리기체계에서는 같은 종류의 다른 새 
치기가 발생할수 있고 이때 다른 CPU 가 새로 발생한 새치기를 처리할수 있으므로 스핀 
잠그기가 꼭 필요하다. 스핀잠그기가 없다면 여러 CPU 가 동시에 주 IRQ 서술자를 접근 
할수 있다. 나중에 살찌보지만 이런 상황은 전적으로 피해야 한다. 

스핀잠그기를 얻은 후 이 함수는 주 IRQ 서술자에 있는 ack 메쏘드를 호출한다. 단일 
처리기체계에서 이에 해당하는 함수는 mask_and_ack_8259A() 함수로써 PIC 에 새치기 
에 대한 응답을 하고 그 IRQ 선을 금지한다. IRQ 선을 금지함으로써 처리기를 완료할 
때까지 CPU 가 이 종류의 새치기를 더는 받아들이지 않게 한다. do_IRQ() 함수는 국부 
새치기를 금지한 상태에서 실행한다는것을 기억해야 한다. 사실 새치기처리기는 IDT 의 
새치기문을 통해 호출하므로 CPU 조종장치는 자동으로 eflags 등록기의 IF 기발을 0 으로 
지운다. 그렇지 만 이 새치기 용새 치기 봉사루린을 실행 하기 전에 핵심부가 국부새 치기를 
다시 허용할수도 있다는 사실을 곧 보게 될것 이 다. 

다중처리기체계에서는 일이 훨씬 복잡하다. 새치기의 류형에 따라 새치기에 응답 
(acknowledge) 하는것을 ack 메쏘드에서 할수도 있고 새치기처려기를 완료할 때까지 미 
를수도 있다. (즉 end 메쏘드에서 응답을 하는것 이 다.) 어느 경우라도 국부 APIC 는 처 리 
기를 완료할 때까지 이 종류의 새치기를 더는 받아들이지 않는다고 생각해도 된다. 다음 
에 발생하는 갈은 종류의 새 치기를 다른 CPU 가 받아들일수는 있다. (주 IRQ 서술자에 있 
는 스핀잠그기가 이런 상황을 해결해춘다.) 

다음으로 do_IRQ() 함수는 주 IRQ 서술자에 있는 몇가지 기발을 초기화한다. 새치기에 
응답을 했지 만 실제 처리 하지 않았으므로 IRQ_PENDING 기발을 설정 한다. 또한 
IRQ_WAITING 과 IRQ_REPLAY 기 발을 지 운다. (아직은 이 기 발에 신경 쓰지 않아도 된 
다.) 

이제 do_IRQ() 는 정말로 새치기를 처리해야 하는지 검사한다. 새치기가 발생해도 
아무일도 하지 않아야 하는 경우는 다음과 같은 3 가지 이 다. 

IRQ_DISABLED 가 설정된 경우 

해 당 IRQ 선을 금지한 상태 이 더 라도 CPU 가 do_IRQ() 함수를 호출할수도 있 다. 오 
유가 있는 주기판때문에 PIC 에서 IRQ 선을 금지한 경우라도 가짜새 치기가 발생할수도 
있 다. 

IRQ_INPROGRESS 가 설정된 경우 

다중처 러기체계 에서 다른 CPU 가 이전에 발생한 같은 종류의 새 치기를 처 리하고있 
는중일수 있 다. 그렇다면 이 번 새치 기처 리 를 해당 CPU 로 미 루는것 은 어 떻 겠는가? 이 것 
이 바로 Linux 가 하는 일이다. 이것은 장치구동프로그람의 새치기봉사루린을 재진입가 
능하게 작성하지 않아도 되므로(직렬로 실행 하기때문에)핵심부구조를 좀 더 간단하게 만 
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들어준다. 다른 CPU 에 넘겨서 일 이 없어 진 CPU 는 하드웨 어캐쉬 를 더는 더 럽히지 않 
고 빨리 이전에 하던 일로 돌아갈수 있다. 이것은 체계성능에 도움이 된다. CPU 가 새 
치기와 련관된 새 치기봉사루린을 실행 할 때마다 IRQ_INPROGESS 기 발을 설정하고 
do_IRQ() 함수는 실제작업을 시작하기 전에 이 기발을 검사한다. 

irq_desc[irq] .ac 仕 on 이 NULL 인 경우 

이 경우는 새치기와 련결된 새치기봉사루린이 없을 때이다. 보통 이 경우는 핵심부 
가 하드웨어장치를 조사할 때에만 발생한다. 

이 3 가지 경우에 해당하지 않는다면 새치기를 처리해야 한다. do_IRQ() 함수는 
IRQ_INPROGRESS 기발을 설정한 후 순환구간을 돌기 시작한다. 반복을 할 때마다 이 
함수는 IRQ_PENDING 기발을 지우고 새치기스핀 잠그기를 해제하고 
handle_IRQ_event 0 ( 《 새 치 기 봉사루린》에 서 설명 한다. )를 호출하여 새 치 기 봉사루린 
을 실행한다. handle_IRQ_event() 가 끝나면 do_IRQ() 는 스핀잠그기를 다시 엄고 
IRQ_PENDING 기발을 검사한다. 이 기발이 지워졌다면 더는 해당 새치기가 발생하여 
다른 CPU 로 전달되지 않은것이므로 순환을 완료한다. 반대로 IRQ_PENDING 기발이 
설정되였다면 이 CPU 에서 handle_IRQ_event() 를 실행하는중에 다른 CPU 에서 이 
새 치기용으로 do_IRQ() 를 실행한것 이 다. 따라서 do_IRQ() 는 순환을 다시 반복하고 
새 로 발생 한 새 치 기 를 처 리 한다. 

이제 do_IRQ() 함수는 새치기봉사루린을 이미 실행했거나 할 일이 없어서 완료하려 
고 한다. 이 함수는 주 IRQ 서술자에 있는 end 메쏘드를 호출한다. 단일처리기체계에서 
해당 함수는 end_8259A_irq() 로 IRQ 선을 다시 허용한다. (가짜로 새 치기가 발생한 경 
우가 아니라면) 다중처리기체계에서 end 메쏘드는 ack 메쏘드에서 새치기에 응답하지 않 
은 경우 응답을 한다. 

IRQ_PENDING 은 계수기가 아닌 기발이기때문에 두번째로 발생한 새치기만을 알수 
있다. do_IRQ() 의 순환고리를 반복하는 동안에 이 이상 발생 한 새 치기는 잃어 버린다. 

마지 막으로 do_IRQ() 는 스핀잠그기 를 해 제한다. 이 계 어 려운 일은 끝났다. 돌아가 
기 전에 이 함수는 실행하기를 기다리고있는 미룰수 있는 핵심부함수가 있는지 검사한 
다. (나중에 나오는 《 쏘프트 IRQ 와 소과제 , 하반부》참고) 작업 이 대 기 중이 면 
do_softirq 0함수를 호출한다. do_IRQ() 함수가 끝나면 ret _ from _ intr () 함수로 조종이 
넘 어 간다. 

7) 잃어버린 새치기 부활 

do_IRQ() 함수는 작고 간단하지만 대부분의 경우 제대로 동작한다. 실제로 
IRQ_PENDING 과 IRQ_INPROGRESS, IRQ_DISABLED 기발은 하드웨어가 오동작 
하더라도 새치기를 정확하게 처리하도록 한다. 그런데 다중처리기체계에서는 아주 부드 
럽게만 동작하는것은 아니다. 

한개 CPU 가 어떤 IRQ 선을 허용하고있다고 가정하자. 하드웨어장치에서 해당 
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IRQ 선에 새치기요청을 발생시키고 다중 APIC 체계에서 새치기를 처리할 CPU 로 이 
CPU 를 선택한다고 하자. 이때 이 CPU 가 새치기에 대해 응답을 보내기 전에 다른 
CPU 가 해 당 새 치기를 마스크해서 막아버리면 결과적으로 IRQ _ DISABLED 기 발이 설 
정된다. 바로 다음에 앞의 CPU 에서 대기중인 새치기를 처리하기 시작하고 do _ IRQ () 
함수는 새치기에 대해 응답을 한 후 IRQ _ DISABLED 기발이 설정된것을 발견하여 새치 
기 봉사투린을 실행하지 않은채 완료한다. 그 결과 IRQ 선을 금지 하기 전에 발생한 새 치 
기는 잃어버리게 된다. 

이 런 경우에 대 처하기 위해 enable _ irq () 함수는 IRQ 선을 다시 허용할 때 잃어버린 
새치기가 있다면 강제로 하드웨어가 해당 새치기를 발생시키게 한다. 

이 함수는 잃어버 린 새치기가 있다는 사실을 IRQ _ PENDING 기발을 검사하여 알아 
낸다. 새치기처리기를 빠져나갈 때 이 기발을 항상 지우므로 IRQ 선이 금지된 상태에서 
이 기발이 설정되여있다면 새치기가 발생하여 이에 응답을 했지만 이것을 처리하지 않았 
음을 의미한다. 이 경우 새로 새치기를 발생시켜야 한다. 이것은 국부 APIC 가 자기에 
새 치 기 를 발생 시 키 도록 하여 처 리 한다. (뒤 에 나오는 《 처 리 기 사이 새 치 기 처 리》참고) 
IRQ _ REPLAY 기발은 이런 자기에게 가는 새치기가 한번만 발생하도록 하는 역할을 한 
다. 앞에서 do _ IRQ () 함수가 새치기를 처리하기 시작할 때 이 기발을 지운다는 점을 기 
억 할것 이 다. 

8) 새치기봉사루린 

앞에 서 본것 처 럼 새 치 기 봉사루린은 장치 에 특수한 작업 을 구성 한다. 새 치 기 처 리 기 가 
ISR 을 실행할 때에는 handle _ IRQ _ event () 함수를 호출한다. 이 함수는 근본적으로 다 
음목록에 나오는 단계대로 실행한다. 

a . irq _ enter () 함수를 호출하여 이것을 실행하는 CPU 의 irq _ stat 입구점에 있는 
_ local _ irq _ count 마당을 증가시 킨 다. ( CPU 에 새 치 기 처 리 기 가 몇 개 쌓여 있는지 알려 면 
이전에 나온 《 IRQ 자료구조》를 참고하시오.) 이 함수는 대역으로 금지하지 않은 새치 
기도 검사한다. 

b . SAJNTERRUPT 기발을 설정하지 않고있으면 s 仕기호언어명령을 사용하여 국 
부새치기를 허용한다. 

c . 다음코드를 통해 새치기와 련관된 각 새치기봉사루린을 실행한다. 

do { 

action->handler ( irq , action -> dev _ id , regs ) : 

action = action -> next ; 

} while (action) : 

순환을 시 작할 때 ac 仕 on 은 새 치기를 수신할 때 실행 할 작업 인 irqac 社 on 자료구조 
의 목록의 시작을 가리킨다. (앞에 나온 [그림 5-4] 참고) 

d . cli 기 호언어 명 령 을 사용하여 국부새 치 기 를 금지 한다. 
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e . irq _ exit () 를 호출하여 이것을 실행하는 CPU 의 irq_stat 입구점에 있는 
— local _ irq_count 마당을 감소시 킨다. 

모든 새 치기봉사루린은 똑갈은 파라메터로 작업을 한다. 

Irq 

IRQ 번호 
dev_id 
장치 식별자 
regs 

새치기가 발생한 직후에 보관한 등록기를 포함하는 핵심부방식탄창령역에 대한 지적자 
첫번째 파라메터 는 한 ISR 이 여 러 IRQ 선을 다룰수 있도록 하고 두번째 파라메터는 
한 ISR 이 같은 IRQ 를 사용하는 여러 장치를 조심스럽게 구별하게 한다. 마지막파라메 
터는 ISR 가 새치기된 핵심부조종경로의 실행문맥에 접근할수 있게 한다. 실제로 대부분 
의 ISR 는 이 파라메터 를 사용하지 않는다. 

주 IRQ 서술자의 SA_INTERRUPT 기발로 do _ IRQ () 함수가 ISR 을 호출할 때 새치 
기를 금지해 야 하는지 허용해 야 하는지 지정한다. 새 치 기를 허 용하거 나 금지 한 상태 에서 
호출하는 ISR 는 그 내부에서 새치기상태를 반대로 바끌수도 있다. 단일처리기체계에서 
는 cli(clear interrupt , 새치기금지)나 sti(set interrupt , 새치기허용)라는 기호언어 
명령을 사용하여 새치기상태를 바끌수 있다. 다중처리기체계에서 모든 CPU 의 새치기를 
허용하거나 금지하는것은 훨씬 더 복잡하다. ISR 의 구조는 ISR 가 다루는 장치의 특성 
에 따라 달타진다. 

9) IRQ 선의 동적할당 

앞에 서 《새 치 기 벡 토르》에 서 설 명 한것 처 럼 벡 토르 몇 개 만 특정 장치 용으로 예 약하고 
나머 지 는 동적 으로 처 러 한다. 따라서 하드웨 어장치 가 IRQ 공유를 지 원 하지 않는다고 하 
더라도 여러 장치가 같은 IRQ 선을 사용할수 있다. 이 기법은 하드웨어장치를 직렬로 
동작하게 하여 동시 에 하나만 IRQ 를 소유하게 하는것 이 다. 

IRQ 선을 사용하려는 장치를 활성화하기 전에 해당 구동프로그람은 request _ irq () 
를 호출한다. 이 함수는 새로 irqac 仕 on 서술자를 만들어 이것을 넘겨준 파라메터값으로 
초기화한다. 그런 다음 setup _ irq () 함수를 호출하여 이 서술자를 옳바른 IRQ 목록에 삽 
입한다. setup _ irq () 함수가 오유값을 돌려주면 이것은 그 IRQ 선을 이미 사용하고있는 
다른 장치가 새치기공유를 지원하지 않는다는 의미이며 장치구동프로그람은 동작을 멈추 
어야 한다. 장치가 동작을 마치면 구동프로그람은 free _ irq () 함수를 호출하여 IRQ 목록 
에서 서술자를 제거하고 기억기령역을 해제한다. 

간단한 실례를 들어 이것이 어떻게 동작하는지 보자. 프로그람이 체계에 있는 첫번 
째 유연성디스크에 해당하는 장치파일인 / dev/fdO 에 접근한다고 하자. 프로그람은 이 
것을 八 iev/fdO 파일에 직접 접근하거나 여기에 있는 파일체계를 랍재해서 할수 있다. 
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유연성디 스크조종기 에 는 보통 IRQ 6 을 할당하며 이 에 따라 유연성디 스크구동프로그람은 
다음과 갈은 요청을 한다. 

request _ irq (6, floppyjnterrupt , 

SAJNTERRUPT ( SA _ SAMPLE _ RANDOM , “ floppy ” , NULL ); 

이것을 보면 floppy _ interrupt () 새치기봉사루린은 반드시 새치기를 금지한 상태에 
서 실행한다는 점과 ( SAJNTERRUPT 기발을 지정) IRQ 공유를 지원하지 않는다는점을 
( SA _ SHIRQ 기 발을 지정 하지 않음) 알수 있다. SA _ SAMPLE _ RANDOM 기 발을 지정 한 
것은 유연성디스크에 대 한 접근은 임의 로 발생하는 사건의 좋은 원천으로 핵 심부의 임의 
의 수자생성기에서 이것을 사용한다는것을 나타낸다. 유연성디스크의 동작을 마치면 
(/ dev / fdO 으로 요청한 입출력동작이 끝나거나 파일체계를 탑재해제하거나) 구동프로그 
람은 IRQ 6 을 해제한다. 

free _ irq (6, NULL ) : 

핵심부는 irqaction 서술자를 옳바른 목록에 삽입할 때에는 IRQ 번호인 irq _ nt 와 
이전에 할당한 irqaction 서술자의 주소인 new 를 파라메 터 로 하여 setup _ irq () 함수를 
호출한다. 이 함수는 다음과 같이 동작한다. 

a . 다른 장치가 이미 irq_nr IRQ 를 사용중인지 검사한다. 사용중이면 두 장치가 
모두 irqaction 서술자에서 SA _ SHIRQ 기발을 지정하여 IRQ 선을 공유할수 있는지 여부 
를 검사한다. IRQ 선을 사용할수 없으면 오유값을 반환한다. 

b . * new ( new 가 가리 키는 새 irqac 吐 on 서술자)를 irq _ desc [ irq _ nr ]-> action 이 가 
러키는 목록의 맨끝에 추가한다. 

c . 다른 장치가 같은 IRQ 를 공유하지 않으면 *new flags 마당에서 
IRQ_DISABLED 와 IRQ _ AUTODETECT , IRQ_INPROGRESS 기발을 지우고 
irq _ desc [ irq _ nr ]-> handler 가 가리키는 PIC 객체에 있는 startup 메쏘드를 호출하여 
IRQ 신호를 허가한다. 

여기에 체계초기화코드에서 가져온 setup _ irq () 를 사용하는 실례가 있다. 핵심부는 
time _ init () 함수에서 다음 명령을 실행하여 간격시계장치의 irqO 서술자를 초기화한다. 

struct irqaction irqO = 

{ timerjnterrupt , SAJNTERRUPT , 0, “ timer ” , NULL ,}; 

setup _ irq (0, SirqO ) : 

먼저 irqaction 형의 irqO 변수를 초기화한다. Handler 마당을 timer _ interrupt () 함 
수의 주소로, flags 마당을 SAJNTERRUPT 로， name 마당을 《 timer 》 로，마지막마 
당을 NULL 로 지정하여 dev _ id 값을 사용하지 않는다고 표시한다. 다음으로 핵심부는 
setup _ irq () 를 호출하여 irqO 을 IRQ 0 에 련결된 irqac 仕 on 서술자의 목록에 삽입한다. 

10) 처리기사이새치기처리 

다중처 리기체계 에서 Linux 는 다음에 나오는 다섯가지 종류의 처 러기사이새 치기를 
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정의 한다. ([표 5-幻 참고) 

CALL _ FUNCTION_VECTOR (백토르 Oxfb ) 

자기를 제외한 모든 CPU 에 보내서 이것들 CPU 가 파라메터로 전달하는 함수를 실 
행하게 만든다. 해당하는 새치기처리기의 이름은 call_func 仕 on _ interrupt () 이다. 파 
라메터로 전달하는 함수는 례를 들어 다른 CPU 를 멈추게 할수도 있고 기 억기형 범위등 
록기 ( MTRR : Memory Type Range Register ) 의 내 용을 설정 하게 만들수도 있다. 
보통 smp _ call_function () 함수를 사용하여 이 함수를 호출하는 자기를 제외한 모든 
CPU 에 이 새치기를 보낸다. 

RESCHEDULE_VECTOR (벡 토르 Oxfc ) 

CPU 가 이 종류의 새 치기를 수신하면 해 당 처 리기인 rescheduleJnterruptO 는 
새치기에 응답하는 일만 한다. 새치기에서 돌아갈 때 자동으로 재순서짜기가 일어난 
다. (뒤 에 나오는《 새 치 기 와 례 외 로부터 복귀》참고) 

INVALIDATE _ TLB_VECTOR (백토르 Oxfd ) 

자기를 제외한 모든 CPU 에 보내서 이 CPU 들이 각각의 변환참조완충기 
(translation lookaside buffer ) 를 무효화하도록 한다. 해당 처리기의 이름은 
invalidate _ interrupt () 로 TLB 입구점을 비운다. 

ERROR _ APIC_VECTOR (벡 토르 Oxfe ) 

이 새치기는 절대로 발생 하면 안된다. 

SPURIOUS _ APIC_VECTOR (벡 토르 Oxff ) 

이 새치기는 절대로 발생 하면 안된다. 

다음에 나오는 함수를 사용하여 처 리기사이새치기 ( IPI:interprocessor interrupt ) 
를 손쉽게 발생시킬수 있다. 
send _ IPI _ all () 

호출하는 자기를 포함한 모든 CPU 에 IPI 를 전송한다. 
send_IP I_al lbutself 0 

호출하는 자기를 제외한 모든 CPU 에 IPI 를 전송한다. 
send _ IPI_self 0 
호출하는 자기 에 IPI 를 전송한다. 
send _ IPI_mask () 

비트마스크 (bit mask ) 로 지정한 일련의 CPU 에 IPI 를 전송한다. 
BUILD _ SMP_INTERRUPT 마크로를 사용하여 처 리기사이새 치기처 리기의 기호언 
어 코드를 만든다. 이 코드는 BUILDJRQ 마크로가 만드는 코드와 거의 같다. (앞에서 
본《 새 치 기 처 리 기 를 위 한 등록기 보관》참고) 

각 처리기사이새치기마다 서로 다른 고수준처리기가 있다. 이 처리기의 이름은 저수 
준처리기의 이름앞에 S mp _ 라는 앞붙이를 붙인것이다. 례를 들어 RESCHEDULE , 
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VECTOR 처려기사이새치기용 저수준처려기인 rescliedule_intermptO 가 호출하는 고 
수준처리기의 이름은 smp_reschedule_interrupt() 이다. 각 고수준처리기는 국부 APIC 
로 처리기사이새치기에 대한 응답 (acknowledge) 을 하고 발생한 새치기에 따르는 특수 
한 작업을 한다. 

11. 쏘프트 IRQ 와 소과제，하반부 

앞에서 《새치기처리》에서 핵심부가 수행하는 작업중 몇가지는 급하지 않다고 하 
였 다. 이 작업 은 필요하다면 한참후로 미 률수도 있 다. 새 치 기 처 리 기 는 새 치 기 봉사루린을 
직 렬 로 실 행 하고 종종 새 치 기 처 리 기 가 완료하기 전에 는 해 당 새 치 기 가 더 는 발생 하지 않 
아야 한다. 반대 로 미룰수 있는 작업은 모든 새 치기를 허용한 상태 에서 실행할수 있다. 
이것을 새치기처리기에서 분리하면 핵심부가 새치기에 반응하는 시간을 줄이는데 도움이 
된다. 이것은 새치기요청을 불과 수 ms 내에 처리할것이라고 기대하는 시간에 민감한 많 
은 응용프로그람에 매우 중요한 특성 이 다. 

Linux 에서는 이런 요청에 대해 미룰수 있고 새치기가능한 핵심부함수(줄여서 미룰 
수 있는 함수 (deferrable function)) 3 종류를 제공한다. 이것은 쏘프트 IRQ (soft 
half) 와 소과제 (tasklet) , 하반부 (bottom half) 이 다. 이 세 종류의 미 룰수 있는 함수 
는 비록 다른 방식으로 동작하지만 서로 밀접하게 련관되 여있다. 소과제를 쏘프트 IRQ 
우에서 구성하고 하반부는 소과제를 사용하여 구성한다. 사실 핵심부코드내에서는 종종 
모든 종류의 미룰수 있는 함수를 쏘프트 IRQ 라고 지정한다. 

일반적으로 같은 CPU 에서 한 쏘프트 IRQ 가 다른 쏘프트 IRQ 를 멈출수 없다. 쏘프 
트 IRQ 를 바탕으로 구성하는 소과제 와 하반부에도 같은 규칙 이 적 용된다. 그렇지 만 다 
중처 리 기체계 에서는 서 로 다른 CPU 에서 미 룰수 있는 함수 여 러 개를 동시 에 실행할수 
있다. 동시성의 정도는 표 5-6 에서 볼수 있는것처럼 미룰수 있는 함수의 류형에 따라 
다르다. 


표 5-6. _ 쏘무트 IRQ 오는 o^Q[ 穴 KM 


지연함수 

동적 할당 

동시성 

쏘프트 IRQ 

아니 

같은 종류의 쏘프트 IRQ 를 여러 CPU 에서 동시 



에 실행할수 있 다. 

소과제 

예 

다른 종류의 소과제를 여러 CPU 에서 동시에 실 



행할수 있 다. 

하반부 

아니 

하반부는 여 러 CPU 에 서 동시 에 실 행할수 없 다. 


쏘프트 IRQ 와 하반부는 정적으로만 할당하지만(즉 콤파일시에 정의한다.) 소과제는 
실행시 (례를들어 핵 심부모둘을 적재할 때)에 할당하고 초기화할수도 있다. 

많은 쏘프트 IRQ 는 같은 종류더 라도 항상 여 러 CPU 에서 동시 에 실행할수 있다. 일 
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반적으로 쏘프트 IRQ 는 재실행가능한 함수로 자기의 자료구조를 스핀잠그기를 사용하여 
명 백하게 보호해 야 한다. 

소과제는 자기에 대해서는 항상 직렬로 실행해야 한다는 점에서 쏘프트 IRQ 와 다르 
다. 즉 한 종류의 소과제 를 동시 에 두 CPU 에서 실 행할수 없 다. 그렇 지 만 서 로 다른 종 
류의 소과제 를 여 러 CPU 에 서 동시 에 실 행할수 있 다. 소과제 를 직 렬 화하면 소과제 를 처 
리하는 함수를 재 실행 가능하게 만들지 않아도 되므로 장치구동프로그람개 발을 단순하게 
할수 있다. 

마지막으로 하반부는 대역으로 직렬화한다. 어떤 CPU 에서 하반부를 실행하고있으 
면 다른 CPU 에서는 비록 다른 종류라도 어떠한 하반부도 실행할수 없다. 이것은 매우 
강력 한 제 한사항으로 다중처 리 기체 계 에서 Linux 핵 심부의 성능을 떨어 뜨린다. 사실 
Linux 는 단지 호환성을 위해 계속 하반부를 지원하고있을뿐이며 장치구동프로그람개발 
자들이 하반부를 사용하는 오래된 구동프로그람를 소과제를 사용하도록 교체하기를 바라 
고있다. 따라서 먼 후날에는 Linux 에서 하반부가 사라질것 이다. 어느 경우이든 미룰수 
있는 함수를 직렬로 실행해야 한다. 같은 CPU 에서는 어떤 미룰수 있는 함수라도 다른 
미룰수 있는 함수와 중첩하여 실행 할수 없다. 

일반적으로 미룰수 있는 함수와 관련하여 네 종류의 동작을 수행한다. 

초기화 

새로 미룰수 있는 함수를 정의한다. 이 작업은 보통 핵심부자체를 초기화할 때 한다. 

활성화 

미룰수 있는 함수를 대기중 ( pending ) 으로 즉 다음에 미룰수 있는 함수들을 실행할 
때 이것을 수행하라고 표시한다. 활성화는 언제나 할수 있다.(새치기를 처리하는중이라 
도 가능하다.) 

마스크 

미룰수 있는 함수를 선택적으로 금지하여 이것을 활성화한 경우라도 핵심부가 이것 
을 실행 하지 않게 한다. 

실행 

대기중인 미룰수 있는 함수를 갈은 종류의 다른 모든 미룰수 있는 함수와 함께 실행 
한다. 

《쏘프트 IRQ 》 에서 설명하지만 특별히 지정한 시 점 에서만 이것을 실행한다. 

활성화와 실행은 어느 정도 서로 묶여있다. 특정 CPU 에서 활성화한 미룰수 있는 
함수는 반드시 같은 CPU 에서 실행해야 한다. 이 규칙이 체계성능에 도움이 된다는것을 
나타내는 어떤 자명한 근거는 없다. 리론적으로는 미룰수 있는 함수를 활성화한 함수와 
묶으면 CPU 하드웨 어캐쉬를 더 잘 활용하게 된다. 결국 활성화한 핵심부스레드에서 접 
근한 자료구조틀 미룰수 있는 함수에서 도 사용할것 이 라고 생 각할수 있 다. 그렇 지 만 미 룰 
수 있는 함수를 실행 하기까지 는 오랜 시 간이 걸 릴수도 있기 때 문에 해 당 함수를 실행할 
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당시에는 캐쉬에 그와 련관된 캐쉬행이 남아있지 않을수도 있다. 나가서 함수를 한 
CPU 와 묶으면 해 당 CPU 만 매 우 바쁘고 다른 CPU 는 한가한 상태 가 발생할수 있 어 
잠재적으로 위험한 방법일수 있다. 

1) 쏘프트 IRQ 

Linux 에서는 제한된 수의 쏘프트 IRQ ( sof 吐 rq ) 를 사용한다. 대부분의 경우 소과 
제 으로도 충분하고 소과제는 재 진행 가능하지 않아도 되므로 훨씬 작성하기 쉽다. 

사실 표 5-7 에서 서술한것처 럼 현재 네 종류의 쏘프트 IRQ 만 정의한다. 


표 5-1. _ Linux 2.6 에서 사용하는 쏘프트 IRQ 


쏘프트 IRQ 

색 인 (우선순위 ) 

설 명 

HI-SOFTIRQ 

0 

우선순위가 높은 소과제와 하반부를 처 
리 한다. 

NET _ TX_SOFTIRQ 

1 

망카드를 통해서 패키지를 전송한다. 

NET RX SOFTIRQ 

2 

망카드에서 패키지를 수신한다. 

TASKLET_SOFTIRQ 

3 

소과제를 처리한다. 


Linux 에서 사용하는 쏘프트의 색 인은 우선순위를 나타낸다. 핵심부는 쏘프트 IRQ 함 
수를 색 인 0부터 실행하기때문에 색 인값이 낮다는것은 우선순위가 높다는것을 의미 한다. 

쏘프트 IRQ 를 나타내는 핵심자료구조는 sof 仕 rq_vec 배럴로서 sof 仕 rq _ action 형요 
소 32개를 포함한다. 쏘프트 IRQ 의 우선순위는 배렬내에 있는 해당 softirq _ action 에 
해 당하는 색 인이다. 표 5-7 에서 보는것 처 럼 처음 4개 입구점만 실제 로 사용한다. 
softirq_action 자료구조는 마당 두개로 이루어진다. 하나는 쏘프트 IRQ 함수이고 다른 
하나는 쏘프트 IRQ 함수에서 펼요로 할수 있는 일반적인 자료구조에 대한 지적자이다. 

《 IRQ 자료구조》에 서 이 미 설 명 한 irq _ stat 배 렬 에 는 핵 심 부가 쏘프트 IRQ (쏘프트 
IRQ 를 기반으로 하는 소과제와 하반부도 포함하여)를 구성하는데 필요한 여러가지 마 
당이 있다. 배럴의 각 항목은 CPU 하나에 대응한다. 여기에 들어있는 마당은 다음과 
갈다. 

_ softirq_pending 마당은 softirq_action 구조체를 가리킨다(대기중인 쏘프트 
IRQ ). softirq_pending 마크로를 사용하여 이 마당에 쉽게 접근할수 있다. 

_ local _ bh_count 마당은 쏘프트 IRQ 의 실행을 금지한다. (소과제와 하반부도 함 
께) local _ bh_count 마크로를 사용하여 이 마당에 쉽게 접근할수 있다. 이 값이 0이면 
쏘프트 IRQ 를 허용하고 이 마당이 흘수이면 쏘프트 IRQ 를 금지한다. local _ bh_disable 
마크로는 이 값을 증가시키고 local _ bh_enable 마크로는 감소시킨다. 핵심부가 
local _ bh _ disable 을 2번 호출하면 local _ bh_enable 역 시 2번 호출해 야 쏘프트 IRQ 를 
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다시 허용할수 있다. 

_ ksoftirq_task 마당은 미룰수 있는 함수의 실행을 담당하는 ksoftirqd_CPUn 핵 
심부스레드의 프로쎄스서술자를 보관한다. (이 스레 드는 CPU 마다 하나씩 있으며 
ksof 仕 rqd_CPUn 에서 n 은 CPU 색인을 나타낸다. 이것은《쏘프트 IRQ 핵심부스레드》 
에서 설명한다.) ksoftirqd_task 마크로를 사용하여 이 마당을 접근할수 있다. 

open_softirq() 함수는 쏘프트 IRQ 의 초기화를 맡는다. 이 함수는 쏘프트 IRQ 색 인과 
실행할 쏘프트 IRQ 함수에 대 한 지적 자, 쏘프트 IRQ 함수에서 필요로 할수 있는 자료구조 
에 대 한 지적 자 이렇게 세 개의 파라메 터를 받는다. open_soflirq() 는 softirq_vec 배 렬 
에서 해당하는 입구점만 초기화한다. _CPU_raise_softirq 마크로를 호출하여 쏘프트 
IRQ 를 활성화한다. 이 마크로는 CPU 번호인 CPU 와 쏘프트 IRQ 의 색인인 nr 를 파라 
메터로 받고 softira p ending (CPU) 의 nr 번째 비트를 1로 설정한다. 
CPU_raise_sofiirq () 함수는 _ CPU_raise_softirq 마크로와 비슷하지만 
ksof 仕 rqd_CPUn 핵심부스레드도 함께 깨울수도 있다는 점이 다르다. 

핵심부코드의 일부지점에서만 대기중인 쏘프트 IRQ 가 있는지 검사한다. 현재는 다 
음경우에만 이것을 수행한다 .( 쏘프트 IRQ 를 검사하는 회수와 위치는 핵심부판본과 지원 
하는 하드웨어구조에 따라 달라질수 있다는데 주의하시오.) 

• local_bh_enable 마크로로 쏘프트 IRQ 를 다시 허용할 때 
• do_IRQ 0 함수가 입 출력 새 치 기 처 리 를 마칠 때 

• smp_APIC_timer_interrupt () 함수가 국부시 계 새 치 기 처 리 를 마칠 때 ( 《 다중프로 
쎄 스체 계 에 서 시 간관려 구조》참고) 

■ 특별 한 ksoftirqd_CPUn 핵 심 부스레 드중 하나가 깨 여 날 때 

• 망이음부카드를 통해 패키지를 수신할 때 

각 검사지점마다 핵심부는 softirq_pending(CPU) 을 읽는다. 이 마당이 빈값 
(NULL) 이 아니 면 핵 심 부 do_softirq() 를 호출하여 쏘프트 IRQ 함수를 실 행한다. 이 것 
은 다음과 같이 동작한다. 

1. 이 함수를 실행하는 CPU 의 론리번호 CPU 를 알아낸다. 

2. local_irq_count(CPU) 가 0이 아니면 그냥 돌아간다. 이 경우는 중첩된 새 치기 
처리기를 완료할 때 do_softirq() 를 호출한것이다. 이미 알고있는것처럼 미룰수 있는 
함수는 새 치 기 봉사루린바깥에 서 실 험 해 야 한다. 

3. Local_bh_caunt(CPU) 가 0이 아니면 그냥 돌아간다. 이 경우는 미룰수 있는 
함수를 금지한것 이 다. 

4. IF 기 발의 상태를 보관하고 이 기 발을 지워서 국부새 치 기를 금지 한다. 

5. irq_stat 의 softirq_pending(CPU) 마당을 검사한다. 대기중인 쏘프트 IRQ 가 없 
다면 앞단계에서 보관한 IF 기발의 값을 복구하고 돌아간다. 

6. local_bh_disable(CPU) 을 호출하여 irq_stat 의 local_bh_count(CPU) 마당을 
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증가시킨다. 이렇게 하면 이후에 do _ softirq () 를 호출하면 쏘프트 IRQ 함수를 실행하지 
않고 돌아가기때 문에(앞의 3단계 참고) 해 당 CPU 에서 미 룰수 있는 함수를 효과적으로 
직렬로 실행하게 된다. 

7. 다음순환을 실 행한다. 

pending = softirq _ pending ( CPU ) : 
softirq_pending ( CPU ) = 0； 
mask = ~0； 
do { 

mask 〜 pending ; 

asmC ' sti " ); 

for ( i =0； pending ； pending »=1, i ++) 
if (pending 沒 1) 

softirq_vec [ i ]. action ( softirq _ vec + i ) : 
asmC ' cli ") : 

pending = softirq _ pending ( CPU ) : 

} while (pending & mask ) : 

코드에서 보는것처럼 이 함수는 국부변수 pending 에 대기중인 쏘프트 IRQ 를 보관 
하고 softirq _ pending ( CPU ) 마당을 0으로 설정한다. 순환을 반복할 때마다 이 함수는 
다음 일을 한다. 

a . 국부변수 mask 를 갱신한다. 이 변수는 이번에 실행하는 do _ sof 仕 rq () 함수에서 
이미 실행한 쏘프트 IRQ 의 색인을 보관한다. 

b . 국부새치기를 허용한다. 

c . 대기중인 모든 쏘프트 IRQ 를 실행한다. (안쪽순환) 

d . 국부새치기를 금지한다. 

e . 국부변수 Pending 에 softirq _ pending ( CPU ) 마당의 내용을 다시 보관한다. 
쏘프트 IRQ 함수를 실행하는 동안 새 치 기처 리기 에서 또는 쏘프트 IRQ 함수에서 
CPU _ raise _ softirq () 를 호출했을수 있다. 

u . 이번에 실행하는 do _ softirq () 에서 처리하지 않은 쏘프트 IRQ 가 새로 활성화되 
였다면 순환을 다시 돈다. 

local _ bh _ count ( CPU ) ^4： 감소시켜 쏘프트 IRQ 를 다시 허용한다. 국부변수 
pending 을 검사한다. 이 값이 0이 아니라면 이번에 실행한 do _ softirq () 에서 처리한 
쏘프트 IRQ 가 다시 활성 화된것 이 다. 다시 do _ softirq () 함수를 실행할수 있도록 
ksof 仕 rqd _ CPUn 핵심부스레드를 깨운다. 

8. 4단계 에서 보관한 IF 기 발의 상태를 복구하고(국부새 치 기를 금지하거 나 허 용한 
다.) 함수를 마친다. 


526 


透資© @資變©^ 


채 5 장. 입출형장치 


2) 쏘프트 IRQ 핵심부스레드 

최근판본의 핵심부에는 각 CPU 마다 자기만의 ksof 社 rqd _ CPUn 핵심부스레드 ( n 은 
CPU 의 론리 번호이다. ) 가 있다. 각 ksoftirqd _ CPUn 핵 심부스례 드는 ksoftirqdO 함수 
를 실행한다. 이 함수는 다음순환를 실행한다. 
for (； ；) { 

set _ current_state ( TASK _ INTERRUPTIBLE ) ; 
schedule () : 

/* 이제 TASK_RUNNING 상태 이 다. */ 
while ( softirq_pending ( CPU )) { 
do_softirq () : 

if ( current -> need _ resched ) 
schedule () : 

} 

} 

이 핵 심 부스레 드가 깨 여나면 softirq _ pending ( n ) 마당을 검 사하여 펼 요하다면 
do _ softirq () 를 호출한다. ksoftirqd_CPUn 핵심 부스레드는 민 감한 일종의 거래 
( tradeoff ) 문제 에 대 한 해 결책 이 다. 

쏘프트 IRQ 함수는 자기를 다시 활성화할수 있다. 실제로 망환경을 담당하는 쏘프트 
IRQ 와 소과제용쏘프트 IRQ 에서 이런 일을 한다. 망카드에서 파케트가 마구 들어오는 
등의 외 부사건 이 발생하면 매 우 짧은 주기 마다 쏘프트 IRQ 를 활성 화할수 있 다. 

쏘프트 IRQ 가 계 속해서 대 량으로 발생하는 경우 생 길수 있는 문제의 가능성 을 핵 심 
부스레 드를 도입하여 해 결 한다. 핵 심 부스레 드가 없 다면 개 발자는 다음 두가지 방책 을 대 
안으로 생각할수 있다. 

첫 번째 방책 은 do_sof 仕 rq () 를 실 행 하는 동안에 발생한 새 로운 쏘프트 IRQ 를 무시 
하는것이다. 다른 말로 하면 do _ softirq () 함수는 함수를 시작할 때 어떤 쏘프트 IRQ 가 
대 기 중인지 확인한 후 그 함수들을 실 행한다. 그리 고 나서 대 기 중인 쏘프트 IRQ 를 다시 
검사하지 않고 완료한다. 그러나 이 해결책으로는 충분하지 않다. 쏘프트 IRQ 함수가 
do _ softirq () 를 실 행하는 도중에 쏘프트 IRQ 가 다시 활성 화되 였 다고 하자. 최 악의 경 우 
를퓨터가 한가한 상태 라도 다음시 계새 치기가 발생할 때까지 해 당 쏘프트 IRQ 를 실행하 
지 않을것 이 다. 그 결과 망개 발자들이 받아들이기 힘든 쏘프트 IRQ 의 지 연이 발생할것 
이 다. 

두번째 방책은 대기중인 쏘프트 IRQ 를 계속해서 다시 검사하는것이다. 
do _ softirq () 함수는 계속해서 대기중인 쏘프트 IRQ 를 검사하고 대기중인것이 없을 때에 
만 완료한다. 이 방책으로는 망개발자를 만족할수는 있겠지만 일반적인 체계사용자에게 
는 불편하게 할것 이 다. 망카드에서 빠른 속도로 파케트가 밀려들어와 쏘프트 IRQ 함수가 
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계속 자기를 활성화하면 do _ softirq () 함수는 절대로 끝나지 않고 사용자방식프로그람은 
멈추어 보일수 있다. 

ksoftirq _ CPUn 핵심 부스레드는 이런 어려운 문제를 해결하려 한다. do _ softirq () 
함수는 어 떤 쏘프트 IRQ 가 대 기 중인지 확인하고 해 당 함수를 실 행한다. 만약에 이 미 실 
행한 쏘프트 IRQ 가 다시 활성 화되 면 핵 심 부스레 드를 활성 화하고 완료한다. 이 핵 심 부스 
레 드는 우선 순위 가 낮기 때 문에 사용자프로그람을 실 행할수 있으면서 콤퓨터 가 한가한 
상태 이면 대기중인 쏘프트 IRQ 를 빠르게 처리하게 된다. 

3) 소과제 

소과제 ( taskler ) 는 입 출력구동프로그람에서 미 룰수 있는 함수를 구성 할 때 먼저 선 
택하는 방법이다. 이미 설명한것처럼 소과제는 HI_SOFTIRQ 와 

TASKLET_SOFTIRQ 라는 두 쏘프트 IRQ 를 기반으로 구성한다. 같은 쏘프트 IRQ 에 
각각 자기만의 함수를 가지는 여 러 소과제를 련결할수 있다. 

do _ softirq () 가 HI_SOFTIRQ 에 있는 소과제를 TASKLET_SOFTIRQ 에 들어 있 
는 소과제 보다 먼저 실행 한다는 점 을 제 외하면 실제 로 두 쏘프트 IRQ 사이 에 아무런 차 
이가 없다. 

소과제와 우선순위가 높은 소과제를 각각 taskler _ vec 과 taskler _ hi _ vec 배럴에 보 
관한다. 둘다 taskler _ head 형요소를 NR _ CPUS 개 가진다. 각 요소는 소과제서 술자 
(taskler descryiptor ) 의 목록를 가리키는 지적자로 이루어진다. 소과제서술자는 
taskler _ struct 형의 자료구조로 여기에는 표 5-8 에 보여준 마당이 들어간다. 


표 5-8. 

소과제서술자의 a 慰 

마당명 

설 명 

Next 

목록에 있는 다음서술자에 대한 지적자 

State 

소과제의 상태 

Count 

잠그기 ( lock ) 계 수기 

Func 

소과제함수에 대한 지적자 

Data 

소과제함수가 사용할수 있는 unsigned long int 형의 자료 


소과제서술자의 state 마당은 두 기 발을 포함한다. 

TASKLET _ STATE_SCHED 

이 기 발을 설 정 하여 소과제 가 대 기 중임 을 나타낸 다. (실 행 하기 위 해 순서 짜기 를 함) 
또한 소과제 서술자를 tasklet _ vec 나 tasklet _ lii _ vec 배럴에 있는 목록중 하나에 삽입 했 
는지 여부도 나타낸다. 

TASKLET _ STATE_RUN 
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이 기발을 설정하여 소과제를 실행중임을 나타낸다. 단일처려기체계에서는 특정소과 
제를 실행중인지 아닌지 검사할 필요가 없기때문에 이 기발을 사용하지 않는다. 

장치 구동프로그람를 작성하면서 소과제 를 사용하려 고 한다고 하자. 그러 면 무엇 을 
해야 할것인가? 

무엇보다도 먼저 새로 tasklet _ struct 자료구조를 할당한 후 tasklet _ init () 함수를 
호출해서 이것을 초기화해야 한다. 이 함수는 소과제서술자의 주소와 소과제함수의 주소, 
선택 적 으로 옹근수파라메터 를 받는다. 

tasklet _ disable _ nosync 0나 tasklet _ disable () 을 호출하여 선택적으로 소과계를 
금지할수 있다. 두 함수 모두 소과제서술자의 count 마당을 증가시키지만 후자의 함수는 
이미 해당 소과제함수를 실행중이면 이것을 완료하기 전에는 돌아오지 않는다는 차이가 
있다. 소과제를 다시 허용하려면 tasklet _ enable () 을 사용한다. 

소과제를 활성화하려면 해 당 소과제 에 필요한 우선순위 에 따라 tasklet _ schedule () 
이 나 tasklet _ hi _ schedule () 함수를 호출한다. 두 함수는 매우 비슷하며 각 함수는 다음 
작업을 수행 한다. 

1. TASKLET _ STATE _ SCHED 기 발을 검사한다. 이 기 발이 설정되 여 있으면 완료 
한다. (그 소과제 를 이 미 순서 짜기 하였 다. ) 

2. 그 함수를 실행하는 CPU 의 론리 번호를 알아낸다. 

3. IF 기발의 상태를 지정하고 이 기발을 지워서 국부새치기를 금지한다. 

4. 소과제서술자를 tasklet _ vec [ CPU ] 나 tasklet _ hi _ vec [ CPU ] 가 가리키는 목록 
의 맨앞에 추가한다. 

5. CPU _ raise _ softirq () 를 호출하여 TASKLET _ SOFTIRQ 나 HI—SOFTIRQ 生 
프트 IRQ 를 활성화한다. 

6. 3단계에서 보관한 IF 기발의 상태를 복구한다. (국부 새치기를 허용하거나 금지한다.) 

마지 막으로 소과제를 어떻게 실행하는지 보자. 앞절에서 일단 활성 화하면 
do _ softirq () 함수에서 쏘프트 IRQ 함수를 실행한다고 하였다. HI_SOFTIRQ 쏘프트 
IRQ 에 대한 쏘프트 IRQ 함수는 tasklet _ hi _ ac 吐 on () 이고 TASKlET _ SOFTIRQ 에 대한 
함수는 tasklet _ ac 社 on () 이 다. 이 두 함수 역시 매우 비슷하다. 각 함수는 다음 작업을 
한다. 

1. 그 함수를 실행 하는 CPU 의 론리번호를 알아낸다. 

2. 국부새 치 기를 금지한다. 

3. tasklet _ vec [ CPU ] 나 tasklet _ hi _ vec [ CPU ] 에서 가리 키는 목록의 주소를 국부 
변수목록에 보관한다. 

4. tasklet _ vec [ CPU ] 나 tasklet _ hi _ vec [ CPU ] 를 NULL 주소로 설정한다. 따라서 
순서짜기를 한 소과제서술자의 목록는 비워진다. 
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5. 국부새치기를 허용한다. 

6. 목록이 가리키는 각 소과제서술자에 다음과 같은 일을 한다. 

a . 다중처 리기체계 라면 소과제에 있는 TASKLET _ STATE _ RUN 기발을 검사한다. 
이 기 발이 설정되 여있으면 같은 종류의 소과제를 다른 CPU 에서 실행 하고있는것 이므로 
해당 소과제 서술자를 tasklet_vec [ CPU ] 나 tasklet _ hi_vec [ CPU ] 가 가리 키는 목록에 
다시 삽입하고 TASKLET _ IRQ 나 HI_SOFTIRQ 쏘프트 IRQ 를 다시 활성화한다. 이 런 
식 으로 CPU 에서 같은 종류의 소과제 를 실행하지 않을 때 까지 실행 을 나중으로 미 룬다. 

b . TASKLET _ STATE _ RUN 기 발이 설정 되 여있지 않으면 다른 CPU 에서 그 소과 
제를 실행하지 않는것 이 다. 다중처 리기체계 에서는 이 기 발을 설정하여 소과제함수를 다 
른 CPU 에서 실행할수 없게 된다. 

c . 소과제서술자의 count 마당을 보고 소과제를 금지하고있는지 여부를 검사한다. 
금지하고있으면 그 소과제 서술자를 tasklet _ vec [ CPU ] 나 tasklet _ hi_vec [ CPU ] 가 가 
리키는 목록에 다시 삽입하고 TASKLETJRQ 나 HI_SOFTIRQ 쏘프트 IRQ 를 다시 
활성화한다. 

d . 소과제를 허용하고있으면 TASKLET _ STATE _ SCHED 기발을 지우고 소과제함 
수를 실 행한다. 

소과제함수가 자기를 다시 활성화하지 않는한 한번 활성화된 소과제는 소과제함수를 
한번만 실행한다. 

4) 하반부 

하반부 (bottom half ) 는 근본적으로 다른 CPU , 다른 종류의 하반부라도 다른 하반 
부와 동시에 실행할수 없는 우선순위가 높은 소과제이다. 최대한 하반부만 실행할수 있 
도록 global _ bh _ lock 스핀잠그기를 사용한다. 

Linux 는 모든 하반부를 함께 모아서 관리하려고 bh _ base 표이라는 배럴을 리용한 
다. 이것은 하반부에 대한 지적자의 배렬로 각 류형의 하반부마다 하나씩 32개까지 입 
구점을 포함할수 있다. 실제로 Linux 는 이중 절반가량을 사용하며 표 5-9 에 그 목록을 
주었다. 표에서 볼수 있는것처럼 하반부중 일부는 체계에 필수적으로 들어가지 않는 하 
드웨어 장치 나 IBM PC 호환체계를 제외 한 다른 가동환경 에 특수한 하드웨 어 장치와 관련 
된것 이다. 그러나 TIMER _ BH 와 TQUEUE _ BH , SERIAL _ BH , IMMEDIATE _ BH 는 
여전히 광범하게 사용한다. TQUEUE _ BH 와 IMMEDIATE _ BH 하반부는 조금 후에 설 
명 하고 TIMER _ BH 하반부는 8장에 서 설 명한다. 
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표 5-9. 

Linux ■부 

하반부 

주변장치 

TIMER BH 

시계 

tqueue bh 

정기적인 과제대기렬 

DIGI—BH 

DigiBoard PC/Xe 

SERIAL BH 

직렬포구 

RISCOM 8 —BH 

RISCom /8 

SPECIALIX BH 

Specialix 108+ 

AURORA—BH 

Aurora 다중포구카드 ( SPARC ) 

ESP BH 

Hayes ESP 직렬카드 

SCSI BH 

SCSI 이 음부 

IMMEDIATE—BH 

즉시 실 행 과제 대 기 렬 

CYCLADES BH 

Cyclades Cyclom - Y 직 렬 다중포구 

CM 206 —BH 

CD ROM Phillips/LMS cm 206 디스크 

MACSERIAL BH 

Power Mac 의 직렬포구 

ISICOM—BH 

MultiTech 의 ISI 카드 


bh _ task _ vec 는 각 하반부마다 하나씩 32개의 소과제서술자를 포함하는 배렬이다. 
핵심부를 초기화하는 동안 다음과 같이 이 소과제서술자를 초기화한다. 

for ( i =0； i <32, ++ i ) 

taskletjnit ( bh _ task _ vec + i , bh _ action , i ) : 

보통 하반부를 처음 호출하기 전에 먼저 이것을 초기화해야 한다. 초기화할 때에는 
init _ bh ( n , routine ) 함수를 호출한다. 이 함수는 routine 주소를 bh _ base 의 n 번째 입 
구점 에 넣 는다. 반대로 remove _ bh ( n ) 는 bh_base 표예서 n 번째 하반부를 제거 한다. 

mark _ bh () 함수를 사용하여 하반부를 활성화한다. 하반부는 우선순위가 높은 소과 
제 이므로 make _ bh ( n ) 는 tasklet _ hi _ schedule ( bh _ task _ vec + n ) 을 실행한다. 

bh _ action () 은 모든 하반부에서 공통으로 사용하는 소과제함수이다. 이 함수는 하 
반부의 색 인를 파라메터 로 받아 다음단계 를 실 행 한다. 

1. 소과제를 실행하는 CPU 의 론러번호를 알아낸다. 

2. global _ bh_lock 스핀잠그기를 누가 점유하고있는지 검사한다. 그렇다면 다른 
CPU 가 하반부를 실행하고있는중이므로 이 함수는 mark _ bh () 를 호출하여 하반부를 다 
시 활성화하고 완료한다. 

3. 그렇지 않으면 globaLbh_lock 스핀잠그기를 획득하여 체계에서 다른 하반부를 
실행할수 없게 한다. 
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4. local _ irq_count 마당이 0인지 (하반부는 새치기봉사루린바깥에서 실행해 야 한 
다.)대역새치기를 허용하고있는지 검사한다. 이중 하나라도 해당하지 않으면 
global _ bh _ Iock 스핀잠그기를 해제하고 완료한다. 

5. bh_base 배럴에 있는 해당 입구점에 있는 하반부함수를 호출한다. 

6. global _ bh_lock 스핀잠그기를 해제하고 완료한다. 

5) 하반부확장 

미룰수 있는 함수를 도입한 계기는 새치기처리와 관련한 몇개 안되는 함수가 작업을 
미루는 방식으로 일을 할수 있게 하기 위해서이다. 이러한 접근방법은 두 방향으로 확장 
되 여왔다. 

■ 새치기를 처리하는 함수뿐아니라 일반핵심부함수도 하반부로 실행할수 있게 한다. 

• 한개의 하반부에 하나가 아닌 여러 핵심부함수를 련관시킬수 있게 한다. 

과제대기렬 (task queue ) 이 라는것으로 함수그룹을 나타낸다. 과제대기렬은 표 5-10 
에 나타낸 마당을 포함하는 tq _ struct 구조체를 요소로 하는 목록이다. 


표 5-10. 

切 — struct 구조제의 Um 

마당명 

설 명 

List 

2중련결목록에 대한 련결 

Sync 

여 러 번 활성 화하는것 을 막기 위해 사용 

Routine 

호출할 함수 

Data 

함수에 전달할 파라메터 


뒤에서 다시 보지만 입출력장치구동프로그람은 특정새치기가 발생하면 련관된 함수 
여러개를 실행하기 위해서 과제대기렬을 사용한다. 

새로 과제 대기렬을 할당할 때 에는 DECLARE _ TASK _ QUEUE 마크로를, 과제대 기 
렬에 새로운 함수를 추가할 때에는 queue _ task () 를 사용한다. run _ task _ queue () 함수 
는 지정한 과제대기 렬에 들어있는 모든 함수를 실행 한다. 

여기서는 특별한 과제대기렬 세개를 설명한다. 

■ tq _ immediate 과제 대 기 렬은 IMMEDIATE _ BH 하반부가 실행 하는것으로 표준하반 
부와 함께 실행할 핵심부함수를 포함한다. 핵심부는 tqjmmediate 과제대기렬에 함수를 
추가할 때마다 mark _ bh () 를 호출하여 IMMEDIATE _ BH 하반부를 활성화한다. 이 과 
제대 기렬은 do _ softirq 0 를 호출하자마자 실행된다. 

• tq _ timer 과제대기 렬은 시계새 치기가 발생 할 때마다 활성화되는 TQUEUE _ BH 하 
반부가 실행 한다. 뒤 에서 살펴 보지만 거의 10 ms 마다 한번씩 이것을 실행한다. 

• tq _ context 과제 대기 렬은 하반부와 관련없고 keventd 핵 심부스레 드가 실행 한다. 
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schedule _ task () 는 함수를 과제대기렬에 추가하고 순서짜기가 다음에 실행할 프로쎄스 
로 keventd 를 선택할 때까지 실행을 미룬다. 

미룰수 있는 함수를 기반으로 하는 다른 과제대기렬에 비해 tq _ context 를 사용하는 
것의 중요한 우점은 자유롭게 차단을 일으킬수 있는 작업을 할수 있다는 사실이다. 반면 
에 쏘프트 IRQ 는 (당연히 소과제 와 하반부도) 핵 심 부개 발자가 그 미룰수 있는 함수를 
실행할 시점의 현재프로쎄스에 대 해 어떤 가정을 할수도 없다는 점 에서 새 치기처 리기와 
비숫하다. 실제적인 관점에서 보면 쏘프트 IRQ 는 파일을 접근하거나 신호기를 획득하거 
나 대기대기렬에서 기다리는 등의 차단을 일으킬수 있는 작업을 할수 없다. 이에 대한 
대 가는 tq _ context 에 서 실 행하라고 순서짜기 하면 꽤 오랜 시 간이 지난 후에 그 함수를 
실 행 한다는것 이 다. 

12. 새치기와 례외에서 복귀 

이제 새치기와 례외처리기의 완료단계를 살펴보자. 이 단계의 주요목적은 명확하게 
어떤 프로그람의 실행을 재개하는것이지만 그전에 몇가지 고려해야 할 사항이 있다. 
동시에 실행중인 핵심부조종경로의 수 
하나밖에 없다면 CPU 를 사용자방식로 돌려보내 야 한다. 

대 기 중인 프로쎄 스절환요청 

이런 요청이 있다면 핵심부는 프로쎄스를 순서짜기해야 하고 그렇지 않으면 현재프 
로쎄스에 조종권을 넘겨준다. 

대기중인 신호 

현재프로쎄스에 신호를 보냈다면 이것을 처리해야 한다. 

핵심부에서 이 모든것을 구성하는 기호언어코드는 기술적으로 말하면 함수가 아니 다. 
왜냐면 이것을 호출한 함수로 조종권이 돌아가지 않기때문이다. ret _ from _ intr 과 
ret _ from _ exception , ret _ from _ sys_cal 1, ret _ from _ fork 라는 서로 다른 4 개 입구점 
에 있는 코드가 이런 일을 한다. 쉽게 설명하기 위해 이것을 서로 다른 4개 함수라고 
설명하겠다. 앞으로 종종 다음 4개 입구점을 함수라고 설명할것이다. 
ret _ from_exception () 

0 x 80 을 제 외 한 모든 례 외 처 리 기 를 완료한다. 
ret _ from _ intr () 

새치기처리기를 완료한다. 
ret_f rom _ sys_call () 

체 계 호출, 즉 0 x 80 프로그람작성 에 의한 례외 에서 만든 핵 심부조종경 로를 완료한다. 
ret _ from _ fork () 

forkO 와 vforkO , cloneO 체계 호출을 완료한다. (자식 프로쎄스에서 만 사용한다.) 
그림 5-5 는 4개 입 구점 (entry point ) 의 일 반적 인 흐름을 나타낸 다. 그림 에 서 
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ret _ from _ exception () 과 ret _ from _ int : r () 입구점은 같아보이지만 실제는 그렇지 않다. 
전자의 경우 핵심부는 례외를 발생시킨 프로쎄스의 서술자를 알고있지만 후자의 경우 새 
치기와 련관된 프로쎄스서술자가 없다. 그림에서는 입구점에 해당하는 표외에도 코드흐 
름과 기호언어코드를 더 쉽게 련관지을수 있도륵 표 몇개를 추가하였다. 이제 매 경우 
어떻게 완료하는지 자세히 살펴보자. 

1) ret _ from_exception () 함수 

ret _ from _ exception () 함수는 다음기호언어 코드와 비슷하다. 

ret _ from _ exception : 

movl 0 x 30 (% esp ), %eax 

movb 0 x 2 C (% esp ), %al 

testl $ (0 x 000200003), %eax 

jne ret _ from _ sys_cal 1 

restore _ all : 

popl %ebx 

popl %ecx 

popl %edx 

popl %esi 

popl %edi 

popl 宅 ebp 

popl %eax 

popl %ds 

popl %es 

addl $4, %esp 

iret 
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그림 5-5. 새치기와 례외에서의 복귀 
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이 함수는 례외가 발생할 때 탄창에 보관하는 CS 와 eflags 등록기의 값을 리용하여 
중단된 프로그람이 사용자방식에서 동작하고있었는지 여부와 eflags 의 VM 기발이 설정 
되였는지 여부를 알아낸다. 둘중 하나라도 해당하면 ret _ from _ sys _ call () 함수로 이행한 
다. 그렇지 않으면 중단된 핵심부조종경로를 다시 시작해야 한다. 이 함수는 례외를 시 
작할 때 SAVE _ ALL 마크로로 보관했던 등록기를 복구하고 iret 명 령을 실행 하여 중단된 
프로그람으로 조종를 넘긴다. 

이 기 발는 프로그람을 가상8086방식 ( virtua 卜8086 mode , VM 86 mode ) 에서 실 
행할수 있게 한다. 

2) ret _ from _ intr () 함수 

ret _ from _ intr () 함수는 근본적 으로 ret _ from _ exception () 과 동등하다. 

ret _ from _ intr ： 

movl $ OxffffeOOO , %ebx 

andl % esp , %ebx 

jmp ret _ from_exception 


ret _ from_exception () 을 호출하기 전에 ret _ from _ intr () 은 ebx 등록기를 current 
프로쎄스서술자의 주소로 설정한다. ret _ from _ exception () 이 호출하기도 하는 
ret _ from _ sys _ call () 함수는 ebx 가 그 주소를 가지고있다고 가정하기때문에 이 과정은 
꼭 필요하다. 한편 례외의 경우 ret _ from _ exception () 을 실행하기 전에 례외처리기가 
ebx 를 current 의 주소로 설정 한다. (앞서 살펴 본《 례 외 처 리 기 를 위 한 등록기 보관》참 
고) 

3) ret _ from _ sys_cal 10 함수 

ret _ from _ sys_cal 10 함수는 다음기 호언어 코드로 되 여 있 다. 

ret_f rom_sy s_cal 1: 

cli 

cmpl $0, 20(% ebx ) 
jne reschedule 
cmpl $0, 8 (% ebx ) 
jne signal_return 
jmp restore_all 

앞서 설명한것처 럼 ebx 등록기는 current 프로쎄스서술자를 가리 킨다. 처음 나오는 
cmpl 명령어는 서술자내에서 편위 20에 있는 need _ resched 마당을 검사한다. 따라서 
need _ resched 마당이 1이면 프로쎄스절환을 수행하는 scheduleO 함수를 호출한다. 
reschedule ： 
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call schedule 
jmp ret _ from _ sys_al 1 

프로쎄스서술자내에서 sigpending 마당의 편위는 8이다. 이 값이 빈값 ( null ) 이면 
current 는 탄창에 보관한 프로쎄스의 하드웨어문맥를 복구하여 사용자방식에서 실행을 
재개한다. 빈값이 아니면 signal _ return 으로 뛰여넘기하여 current 에서 대기중인 신호 
값을 처 리한다. 

signal _ return ； 

sti 

testl $ (0 x 00020000)， 0 x 30 (% esp ) 

movl % esp , %eax 

jne v 86_ signal_return 

xorl % edx , %edx 

call do_signal 

jmp restore_all 

v 8 6_ signal_retu r n ； 

call save _ v 86 _state 

movl % eax , %esp 

xorl % dex , %dex 

call do_signal 

jmp restore_all 

새 치기된 프로쎄스가 VM 86 방식 에 있었다면 save _ v 86_ state () 함수를 호출한다. 다 
음으로 do _ softirq () 함수를 호출하여 대기중인 신호를 처리한다. 마침내 current 는 사 
용자방식에서 실행을 할수 있다. 

4) ret _ from _ fork () 함수 

forkO 나 vforkO , cloneO 체계호출을 사용하여 생성한 자식프로쎄스는 생성직후 
ret _ from _ fork () 함수를 실행한다. 이 코드는 다음기호언어코드와 비슷하다. 
ret _ from _ fork ； 
pushl %ebx 
call schedule_tail 
addl $4, %esp 
movl $0 xffffe 000, %ebx 
andl % esp , %ebx 
testb $0 x 02, 24(% ebx ) 
jne tracesys_exit 
jmp ret _ from _ sys_cal 1 
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tracesys _ exit ； 
call syscall_trace 
jmp ret _ from _ sys_cal 1 

시작할 때 ebx 등록기는 자식으로 교체되는 프로쎄스의 서술자(일반적으로 부모의 
프로쎄 스서 술자)주소를 보관하고있 다. 이 값을 schedule_tail () 함수의 파라메 터 로 전 
달한다. 이 함수를 마친 후 ebx 를 current 의 프로쎄스서술자주소로 다시 설정한다. 다 
음으로 ret _ from _ fork () 함수는 current 의 ptrace 마당(프로쎄스서술자의 편위 24에 위 
치한다.)의 값을 검사한다. 이 마당이 빈값이 아니면 forkO 나 vforkO , cloneO 체계호 
출을 추적하고있는중이므로 syseall _ trace () 함수를 호출하여 오유수정을 하는 프로쎄스 
에 알려준다. 


제2 절. 입출력장치관리 

가상파일체계는 각 장치에 적합한 방식으로 읽기, 쓰기，기타 조작을 수행하는 저준 
위함수에 의존한다. 앞에서는 서로 다른 파일체계가 조작을 어떻게 처리하는지 간단히 
설명하였다. 여기서는 실제장치에 대해 핵심부가 어떻게 조작을 수행하는지 고찰한다. 

1. 입출력구성방식 


름퓨터가 제대로 동작하게 하려면 CPU (하나 또는 여러개)， RAM 그리고 개인용를 
퓨터에 련결할수 있는 여러 입출력장치사이에 정보가 흘러갈수 있도록 자료경로 (data 
pa 仕 i ) 를 제공해야 한다. 자료경로를 통털어 모선 ( bus ) 이라고 하며 콤퓨터내부에서 가 
장 중요한 통신통로로 동작한다. 최근에는 ISA , EISA , PCI , MCA 등 여러 모선류형 
을 사용한다. 여기서는 특수한 모선류형을 자세히 설명하지 않고 모든 PC 구성방식에서 
공통적 으로 사용하는 기 능의 특징 을 살펴 본다. 사실 일 반적 으로 모선이라고 하는것 은 다 
음 3개 종류의 규정된 모선으로 구성된다. 

자료모선 (data bus ) 

장치를 병렬로 전송하는 선로묶음이다. 펜리움은 폭이 64 bit 인 자료모선을 가지고있다. 

주소모선 (address bus ) 

주소를 병렬로 전송하는 행묶음이다. 펜터움은 폭이 32 bit 인 주소모선을 가지고있다. 

조종모선 (control bus ) 

련결된 회로에 조종정보를 전송하는 선로묶음이다. 례를 들어 펜터움은 모선을 프로 
쎄 스와 주기억사이 의 자료전송에 사용하든가 혹은 프로쎄 스와 입 출력장치사이 의 자료전 
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송에 사용하는가를 지 정 하기 위해 조종선로를 사용한다. 읽 기 전송 또는 쓰기 전송을 실 행 
해 야 하는가를 나타내는데도 조종선로를 사용한다. 

CPU 와 입 출력 장치 의 련결을 위해 모선을 사용할 때 이 모선을 입 출력 모선 ( I/O 
bus ) 이라고 부론다. 이 경우에 Intel 80 x 86 극소형처리기는 입출력장치주소를 나타내기 
위해 주소선 32개 중에 서 16개 를 사용하고 자료를 전송하기 위 해 자료선 64개 중 8, 16 
또는 32개를 사용한다. 입출력모선은 3개 항목(입출력포구，대면부, 장치조종)을 포함 
하는 하드웨어구성요소 계층에 의해 각 입출력장치에 련결된다. 그림 5-6 은 입출력구성 
방식의 구성요소를 보여준다. 



입 출력 장치 


그림 5-6. PC 의 입출력구성방식 


1) 입출력포구 

장치를 입출력모선에 련결하면 각 장치는 자기의 입출력주소모임을 소유하게 된다. 
이것을 입 출력 포구라고 한다. IBM PC 구조에서는 입출력 주소공간에 8 bit 입출력 포구가 
65536개 까지 들어 간다. 련속되 는 8 bit 포구 두개 가 16 bit 포구 하나를 구성 하고 16 bit 포 
구는 짝수주소에서 시작한다. 련속되는 16 bit 포구 두개가 32 bit 포구 하나를 구성하고 4 
의 배수주소에서 시작한다. CPU 는 특수아쌤블러명령인 in , ins , out , outs 를 사용하 
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여 입출력포구에서 값을 읽거나 입출력포구에 값을 쓸수 있다. CPU 는 이 명령어중 하 
나를 실 행하는 과정 에 서 주소모선을 사용하여 필요한 입 출력 포구를 선택 하고 장치 모선을 
사용하여 CPU 등록기와 포구사이에 장치를 전송한다. 

입출력포구를 물리주소공간의 주소로 넘기기할수도 있다. 이렇게 함으로써 프로쎄스 
는 기억기에 직접 작용하는 아쌤블러명령어를 사용하여 입출력장치와 통신할수 있다. (례 
를 들면 move , and , or 등) 최근의 하드웨어장치는 기억기에 넘기기한 입출력이 더 
빠르고 DMA 를 사용할수 있어서 더 주목된다. 

체계설계자의 중요한 목표중 하나는 입출력프로그람작성을 위한 단일접근방법을 성 
능저하없이 제공하는것 이 다. 이를 위해 각 장치의 입출력포구는 그림 5-7 처 럼 특수등록 
기 모임 으로 구조화되 여 있 다. CPU 는 장치 에 보낼 명 령 을 조종등록기 에 기 록하고 상태 등 
록기에서 장치의 내부상태를 나타내는 값을 읽는다. CPU 는 자료를 얻어내려고 입력등 
록기 에서 바이트를 읽으며 자료를 내보내 려고 출력등록기 에 값을 쓴다. 



그림 5-7. 특수입출력포구 

비 용절 약을 위해 한 입 출력 포구를 여 러 목적 으로 사용하기 도 한다. 례 를 들면 몇 비 
트는 장치상태를 나타내고 나머지 비트는 장치에 보낼 명령을 지정한다. 같은 입출력포 
구를 입력등록기나 출력등록기로 사용할수도 있다. 

2) 입출력포구접근 

입출력포구에 접근하기 위해 in , out , ins , outs 아쨈블러명령어를 사용한다. 핵심 
부에 포함된 다음보조함수를 사용하여 포구에 쉽게 접근할수 있다. 
inb (), inw (), inl () 

입출력포구에서 각각 련속되는 1,2, 4 B 를 읽는다. 접미사 《 b 》. 《 w 》, 《1》은 

각각 바이 트, 단어 , 배단어 를 의 미 한다. 
inb _ p (), inw _ p (), inl _ p () 

입출력포구에서 각각 련속하는 1, 2, 4 B 를 읽은 다음 잠시 멈추기 위해 묶음명령어 
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를 실 행한다. 

OutbO , OutwO , Outl () 

각각 련속되는 1, 2, 4 B 를 입출력포구에 쓴다. 

Outb_p 0, Outw_p 0, Outl_p () 

각각 련속되는 1, 2, 4 B 를 입출력포구에 쓰고 나서 잠시 멈추기 위해 묶음명령어를 
실 행 한다. 

insb () , inswO , insl () 

입출력포구에서 련속되는 바이트렬을 각각 1, 2, 4 B 단위로 읽는다. 길이는 함수의 
파라메 터 로 지 정 한다. 

OutsbO , OutswO , OutslO 

련속되는 바이트렬을 각각 1, 2, 4 B 단위로 입출력포구에 쓴다. 

입 출력 포구에 접 근하는것 은 쉽 지 만 어 떤 입 출력 포구가 입 출력 장치 에 할당되 여 있는지 
알아내는 일은 쉽지 않으며 ISA 모선을 사용하는 체계인 경우 특히 까다롭다. 때때로 장 
치구동프로그람은 단지 하드웨 어장치를 검출하기 위해 일부입출력포구에 값을 쓰는 경우 
도 있다. 그러나 만일 다른 하드웨어장치가 이미 이 입출력포구를 사용하고있다면 체계 
충돌이 발생할수 있다. 이런 경우를 방지하기 위해 핵심부는 자원 ( resource ) 을 사용하 
여 각 하드웨 어 장치 에 할당된 입 출력 포구를 기 억 한다. 

자원은 장치구동프로그람에 배타적으로 할당할수 있는 특정한 개체의 일부분이다. 
우의 실례에서 자원은 입출력포구범위를 나타낸다. 각 자원관련정보는 자원자료구조에 
보관된다. 표 5-11 에 이 자료구조의 마당을 보여주었다. 같은 종류의 모든 자원을 나무 
와 류사한 자료구조에 삽입한다. 례를 들어 입출력포구주소범위를 나타내는 모든 자원은 
ioport_resource 를 뿌리로 하는 나무에 포함된다. 


■ 5-11. 자원자료구조의 □[당 


형 

마 당 

설 명 

const char * 

name 

자원소유자를 나타냄 

unsigned long 

start 

자원범위의 시작 

unsigned long 

end 

자원범위의 끝 

unsigned long 

flags 

여러 기발 

Struct resource 

parent 

자원 나무구조의 부모지 적 자 

Struct resource 

sibling 

자원나무구조의 의 형제지 적 자 

Struct resource 

child 

자원나무구조의 첫번째 자식지적자 
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한 마디의 자식들은 목록을 구성한다. child 마당이 목록의 첫번째 요소를 가리키고 
sibling 마당이 목록의 다음마디를 가리 킨다. 왜 나무를 사용하는가? 례를 들어 IDE 하 
드디 스크대 면부가 사용하는 입 출력 포구주소가 OxfOOO 에 서 OxfOOf 까지 라고 하자. start 
마당은 OxfOOO , end 마당은 OxfOOf 로 설정된 자원을 나무에 삽입하고 name 마당을 조 
종기의 이름으로 설정한다. 그러나 IDE 장치구동프로그람은 그 이상의 정보가 필요할수 
있다. 즉 OxfOOO 부터 0 xf 007 까지는 주하드디스크에서 사용하고 0 xf 008 부터 OxfOOf 까 
지는 종속하드디스크에서 사용한다. 이를 위해 장치구동프로그람은 OxfOOO 부터 OxfOOf 
범위를 나타내는 자원의 아래에 각 부분범위 ( subrange ) 를 나타내는 자식마디 두개를 
삽입한다. 일반적인 규칙으로 나무의 각 마디는 부모마디가 나타내는 범위에 속하는 부 
분범위를 나타내야 한다. 어떤 장치구동프로그람이든지 자원나무의 뿌리마디, 필요한 자 
원자료구조의 주소를 파라메터 로 다음 3개 함수를 사용할수 있 다. 

request_resou rce 0 

주어진 범위를 입출력장치에 할당한다. 

check_resou rce 0 

주어진 범위가 비여있는지, 그중 일부를 이미 입출력장치에 할당했는지 검사한다. 

rel ease_resou rce () 

이 전에 입 출력 장치 에 할당한 범 위 를 해 제 한다. 

핵심부는 이 함수들을 입출력포구에 적용한 함수를 제공한다. request_region () 은 
주어진 범위의 입출력포구를 할당한다. check _ region () 은 주어진 범위의 입출력포구가 
비 여있는지 또는(일부라도) 사용중인지 검 사한다. release _ region () 은 이 전에 할당한 
입출력포구범위를 해제한다. 현재입출력장치에 할당한 모든 입출력주소의 나무를 
/ proc/ioports 파일에서 엄을수 있다. 

2. 입출력대면부 

입 출력 대 면부는 입 출력 포구그름과 이 것 들에 대 응하는 장치 조종기 (device 
controller ) 사이에 위치하는 하드웨어회로이다. 대면부는 입출력포구에 넣어준 값을 
장치에 대한 명령과 장치로 변환하는 해석기역할을 수행하며 반대방향으로 장치의 상태 
변화를 감시하여 상태등록기역할을 하는 입출력포구값을 변경한다. 이 회로는 IRQ 행을 
통해 프로그람가능한 새치기조종기 ( PIC , Programmable Interrupt Controller ) 에 련 
결되여 장치를 대신해서 새치기요청을 발생시킨다. 

대면부에는 두가지 류형 이 있다. 

o 전용입출력대면부 

한 종류의 특정한 하드웨어장치를 위한것이다. 어떤 경우 입출력대면부를 포함하는 
카드자체 에 장치 조종기 가 위 치 하기 도 한다. 전용입 출력 대 면부에 련결된 장치 는 내 부장치 
( PC 본체 내 부에 있는 장치 ) 일수도 있고 외 부장치 ( PC 본체 외 부에 있는 장치 ) 일수도 있 다. 
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o 일반입출력대면부 

여 러 가지 다양한 하드웨 어장치 를 련결 할 때 사용한다. 일 반입 출력 대 면부에 련결된 
장치 는 언제 나 외 부장치이 다. 

1) 전용입출력대면부 

전용입출력대면부가 얼마나 다양한지 알수 있도록 요즘 PC 에 설치된 장치중에서 가 
장 일 반적 인것 을 서 술하였 다. 
o 건반대면부 

건반대 면부는 전용극소형처 리 기를 가지 고있는 건반조종기 에 련결된다. 이 극소형 처 
리기는 사용자가 누른 건조합을 해석하고 새치기를 발생시켜 건조합에 대응하는 주사코 
드를 입력등록기에 넣는다. 
o 도형대면부 

도형대 면부는 도형카드에 들어있는 대 응하는 조종기와 일체형 으로 되 여있다. 도형카 
드는 자기의 프레임완충기와 특수처리기， ROM 소편에 보관된 코드를 보유하고있다. 프 
레 임 완충기 는 현재 화면내 용의 도형 서 술 ( description ) 을 포함하는 기 억 기 이 다. 
o 디스크대면부 

디스크대면부는 케블을 통해 디스크조종기 (disk controller ) 에 련결된다. 디스크조 
종기 는 일 반적 으로 디 스크에 통합되 여있 다. 례 를 들어 IDE 대 면부는 띠 형 케 블 40선을 
통해 디 스크자체 에 있는 지능적디 스크조종기 에 련결되 여있다. 
o 모선마우스대 면부 

모선마우스대면부는 마우스에 들어있는 대 응하는 조종기 와 케블을 통해 련결된다. 
o 망대면부 

망대 면부는 망카드에 들어있는 대 응하는 조종기와 일체 형 으로 되 여있다. 망카드는 
망파케 트을 주고받는데 사용된다. 널 리 쓰이 는 몇 가지 망표준이 있으나 이씨네 트 
( E 比 lernet ) 가 가장 일반적 이 다. 

2) 일반입출력대면부 

최근에 나오는 PC 는 다양한 일반입출력대면부를 포함한다. 이것들은 광범한 외부장 
치를 련결한다. 가장 일반적 인 대면부는 다음과 갈다. 
o 병렬포구 

전통적 으로 인쇄 기 를 련결 하는데 사용한다. 외 장형디 스크, 화상입 력 장치，일 시 복사 
장치，다른 콤퓨터 등과 련결하는데 사용할수도 있다. 자료를 한번에 바이트 (8 bit ) 단위 
로 전송한다. 

o 직렬포구 

병렬포구와 비슷하지만 자료를 한번에 lbit 씩 전송한다. 직렬포구는 
UART(Universal Asynchronous Receiver and Transmitter ) 소편을 가지고있으며 
이것을 사용하여 내보내는 바이트를 비트렬로 변환하고 들어오는 비트렬을 다시 바이트 
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로 재조립한다. 이 대면부는 병렬포구보다 느리므로 고속으로 동작할 필요가 없는 외부 
장치 즉 모뎀, 마우스, 인쇄기 등에 사용한다. 

效 일반직렬모선 ( USB ) 

최신일반입출력 대면부로 빠르게 확산되 고있다. 고속으로 동작하며 전통적 으로 병 렬 
포구나 직렬포구에 련결하던 외부장치를 위해 사용한다. 

o PCMCIA 대면부 

이동가능한 콤퓨터(노트형를퓨터)에 주로 사용한다. 외부장치는 신용카드처럼 생겼 
는데 체계를 다시 초기시동하지 않고도 슬로트 ( slot ) 에 넣거나 슬로트에서 제거할수 있 
다. 가장 일반적 인 PCMCIA 장치는 하드디스크，모뎀，망카드 RAM 확장 등이다. 

q SCSI 대 면부 

주 PC 모선을 SCSI (Small Computer System Interface ) 모선이 라는 보조모선에 
련결하는 회 로이다. SCSI -2 모선은 PC 와 외부장치(하드디스크, 화상입 력 장치， CD - 
ROM 쓰기장치 등)를 8개까지 련결할수 있다. 광역 SCSI -2 와 SCSI -3 대면부는 장치를 
16개까지 허용하며 대면부를 추가로 사용할 경우 더 확장할수 있다. SCSI 표준은 SCSI 
모선을 통해 장치를 련결하기 위한 통신규약이다. 

3. 장치조종기 

복잡한 장치 를 구동하기 위 해 장치 조종기 (device controller ) 가 필요할수도 있 다. 
조종기는 두가지 중요한 역할을 수행한다. 

입출력대면부에서 받은 고수준명령을 해석하고 적절한 전기신호를 차례로 장치에 보 
내서 장치가 특수한 작업을 수행하도록 한다. 장치에서 받은 전기신호를 변환하고 적절 
히 해석한 다음 (입출력대면부를 통해)상태등록기값을 변경한다. 

전형적 인 장치조종기 로 디스크조종기 를 들수 있다. 디스크조종기 는 극소형처 리기로 
부터 (입 출력 대 면부를 통해 ) 《 이 블로크의 장치 를 기 록하라.》갈은 고수준명 령 을 받아 
서 《디스크자두를 옳바른 자리길로 옮기라》, 《자료를 자리길에 기록하라》갈은 저준 
위디 스크연산으로 변환한다. 최 신디 스크조종기 는 매 우 복잡해 서 디 스크자료를 고속기 억 
기패쉬에 보관하거나 받은 고수준명령의 순서를 바꿔서 실제 디스크배치에 최적화되도록 
할수도 있다. 

더 단순한 장치에는 장치조종기가 없다. 프로그람가능한 새치기조종기(《새치기와 
례외》참조)와 프로그람가능한 간격시간(《프로그람가능한 간격시간》참조) 등이 그 실 
례 이 다. 

여 러 하드웨 어장치 가 독자적 인 기 억기를 보유하고있는데 이것들을 입출력공유기억기 
( I/O shared memory ) 라고 부론다. 례를 들어 모든 최신도형카드는 프레 임완충기 라는 
수 MB 에서 수십 MB 이상인 RAM 이 있으며 모니 터에 출력할 화면영상를 보관하는데 사용 
한다. 
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1) 입 출력 공유기억 기 주소의 사영 

장치 와 모선류형 에 따라 PC 구성 방식의 입 출력공유기억 기는 3가지 다른 물리주소범 
위와 대응한다. 

1 SA 모선에 련결된 대부분의 장치 

입출력공유기억기는 일반적으로 물리주소범위 OxaOOOO 에서 Oxfffff 에 대응한다. 

이 범위는《예약된 폐지틀》에서 언급한 640 kB 에서 1 MB 사이의 《구멍》에 해당한다. 

VESA 국부모선을 사용하는 오래된 장치 

VESA 는 도형 카드에서 주로 사용하는 특수한 모선으로서 입 출력공유기억기는 주소 
범위 OxeOOOOO 에서 Oxfff 伴 f 에 대응한다. 즉 14 MB 에서 16 MB 범위다. 이런 장치는 
페지화표의 초기화를 더 복잡하게 만들며 더는 생산되지 않는다. 

PCI 모선에 련결된 장치 

입 출력 공유기억기는 RAM 의 물리주소범위를 훨씬 지 나서 아주 큰 물리주소에 대응 
한다. 이 장치는 아주 다루기 쉽 다. 최근 Intel 은 고성능도형카드를 위해 PCI 를 향상한 
AGP (Accelerated Graphics Port ) 표준을 도입 하였 다. 이 카드는 독자적 인 입 출력 공 
유기 억기가 있을뿐 아니라 GART (Graphics Address Remapping Table ) 라는 특수하 
드웨어회로를 통해 주기판의 RAM 령역을 직접 참조할수 있다. GART 회로를 사용하여 
AGP 카드는 구형 PCI 카드보다 훨씬 고속으로 자료를 전송할수 있다. 그러나 핵심부관점 
에서 물러적인 기억기가 어디에 위치하는지는 문제되지 않으며 GART 배치된 기억기도 
다른 종류의 입 출력공유기억 기와 갈은 방법 으로 처 리한다. 

2) 입출력공유기억기접근 

핵심부는 어떻게 입출력공유기억기의 특수한 위 치에 접근하는가? 일단 다루기 쉬운 
PC 구성방식부터 시작하고 이어서 다른 하드웨어구성방식을 고찰하자. 

핵 심 부프로그람이 선형주소를 사용하여 동작한다는 사실은 특수한 입 출력공유기억기 
위치도 PAGE _ OFFSET 보다 큰 주소로 표현해야 한다. 여기서는 PAGE _ OFFSET 이 
OxcOOOOOOO 이라고 가정한다. 즉 핵심부선형주소가 3 GB 부터 4 GB 사이에 있다. 핵심부 
구동프로그람은 반드시 특수한 입 출력공유기억기위치의 입 출력물리주소를 핵 심부공간의 
선형주소로 변환해야 한다. PC 구성방식에서는 단순히 32 bit 물리주소를 상수 
OxcOOOOOOO 과 OR 연산을 수행하면 된 다. 례 를 들어 핵 심 부가 比에 물리 적 주소 
0 x 000 b 0 fe 4 인 입출력위 치의 값을 보관하고 t 2 에 물리적주소 OxfcOOOOOO 인 입출력위 치 
의 값을 보관해 야 한다고 하자. 

그렇 다면 다음과 같이 하면 된다고 생각할수도 있다. 

tl =*( (unsigned char *) (0 xc 00 b 0 fe 4)) ； 

t 2 =*((unsigned char *) ( OxfcOOOOOO )) : 

초기화과정에서 핵심부는 RAM 의 물리적 주소를 선형 주소공간 3 GB -4 GB 의 시작부 
분에 대응시킨다. 따라서 폐지화유니트는 첫번째 문장의 0 xc 00 b 0 fe 4 선형주소를 원래 
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입 출력 물리 주소 0 x 000 b 0 fe 4 에 대 응시 키 며 이 주소는 640 kB 에 서 lkB 사이 의 《 ISA 구 
역》부분에 해 당한다. (4 장 1절의 《 Linux 페지화》참조) 

그러 나 두번째 문장의 경 우 문제 가 발생한다. 입 출력 물리 주소가 체 계 RAM 의 마지 
막물리주소보다 크기때문이다. 따라서 OxfcOOOOOO 선형주소가 반드시 OxfcOOOOOO 물 
리주소와 대응할 펼요는 없다. 이런 경우 입출력물리주소에 대응하는 선형주소를 포함하 
도록 핵심부페지표을 바꾸어야 한다. 이것은 ioremapO 함수 또는 ioremap _ nocache () 
를 호출하여 처 리할수 있다. 

이 함수는 vmallocO 과 류사하게 get _ vm _ area () 를 호출하여 새로운 vm_struct 
서술자 (4 장 2절의 《불련속적인 기억기령역서술자》참고)를 생성한다. 이 서술자는 요 
청 한 입 출력공유기 억기 령 역만큼의 크기를 가진 선형주소범위 를 나타낸다. 그리 고 나서 
ioremapO 함수는 기본핵심부폐지표에서 해당하는 페지표항목을 적당히 갱신한다. 
ioremap _ nocache () 는 ioremapO 와 달리 다시 배치한 선형주소를 참조할 때 하드웨어 
캐 쉬 를 비 활성 화한다. ( include \ asm - i 386\ io . h ) 

따라서 두번째 문장의 옳바른 형식은 다음과 같이 될것이다. 
io_mem = ioremap ( OxfbO 0 0000, 0 x 200000); 
t 2=*( (unsigned char *) ( io_mem + 0 x 100000)); 

첫 번째 문장은 0 xfb 000000 에 서 시 작하는 새 로운 2 MB 의 선형 주소범 위 를 생 성한다. 
두번째 문장은 OxfcOOOOOO 주소를 가지는 기 억기위치 를 읽는다. 나중에 배 치를 제거하 
려면 장치구동프로그람이 iounmapO 를 사용해야 한다. PC 이외의 하드웨어구성방식중 
에서 어떤 경우에는 물리적기 억기위치를 가리키는 선형주소를 통해 입출력공유기억기주 
소에 접근할수 없다. 따라서 Linux 는 다음과 같은 구성방식고유의 마크로를 정의하며 
입출력공유기억기에 접근할 때 반드시 이것들을 사용해야 한다. 
readb , readw , readl 

입출력공유기억기위치에서 각각 1, 2, 4 B 를 읽는다. 
writeb , writew , writel 
입출력공유기억기위치에 각각 1, 2, 4 B 를 쓴다. 
memcpy _ fromio , memcpy_toio 

입출력공유기억기위치 에서 동적기 억기 로 혹은 그 반대 로 장치블로크를 복사한다. 
memsetjo 

입출력공유기억기 령역을 특수한 값으로 채운다. 

OxfcOOOOOO 입출력위치에 접근하기 위해 권고할만한 방법은 다음과 같다. 
io_mem = io remap (Oxf b 0 0 0000, 0 x 200000); 
t 2 = readb ( io_mem + 0 x 100000); 

이 마크로먹분에 입출력공유기억기에 접근할 때 특수한 기반에 대한 모든 의존성을 
감출수 있다. 
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4. DMA 

모든 PC 에는 직접기억기접근조종기 (Direct Memory Access Controller ), 줄여 
서 DMAC 라는 보조처리기가 있다. CPU 는 RAM 과 입출력장치사이에서 자료를 전송하 
도록 이 프로쎄스에 명령을 내릴수 있다. CPU 가 DMAC 를 활성화하고 나면 DMAC 는 
스스로 자료전송을 계속할수 있다. DMAC 는 자료전송이 끝나면 새 치기요청을 발생시킨 
다. CPU 와 DMAC 가 동시 에 같은 기 억기위치 에 접근하려 할 때 발생하는 충돌은 기 억 
기중재자 (memory arbiter ) 라는 하드웨 어회로가 해결한다. 

많은 량의 자료를 한번에 전송하는 디스크구동프로그람과 같은 느린 장치가 DMAC 
를 주로 사용한다. DMAC 의 초기설정시간이 상대적으로 길기때문에 전송할 자료의 량 
이 적은 경우는 CPU 를 직접 사용하여 자료를 전송하는것이 더 효과적이다. 오래된 
ISA 모선에서 사용한 초기 DMAC 는 복잡하고 프로그람작성하기도 어려웠으며 물리적기 
억기의 시작부분에 있는 16 MB 만을 사용할수 있었다. PCI 나 SCSI 모선을 위한 최신 
DMAC 는 모선에 있는 전용하드웨어회로에 의존하며 장치구동프로그람개발자를 훨씬 편 
하게 해주었다. 

지금까지 세 종류의 기억기주소를 보았다. 즉 CPU 가 내부적으로 사용하는 론리주 
소와 선형 주소, CPU 가 자료모선을 물리적으로 구동하기 위해 사용하는 기 억기주소인 
물러적주소이다. 마지막으로 4번째 기억기주소인 모선주소가 있다. 이것은 CPU 를 제외 
한 모든 하드웨 어 장치 가 자료모선을 구동하기 위해 사용하는 기 억기주소이 다. PC 구성방 
식에서 모선주소는 물리주소와 동일하지만 SUN 의 SPARC , HP 의 Alpha 와 같은 구성 
방식에서는 이것들 주소가 서로 다르다. 

핵 심 부가 왜 모선주소에 주의 를 돌려야 하는가? DMA 연산에 서 자료전송은 CPU 의 
간섭없 이 이 루어 지 며 입 출력 장치 와 DMAC 자료모선을 직 접 구동한다. 따라서 핵 심 부가 
DMA 연산을 설정할 때 핵 심부는 사용할 기 억 기 완충기의 모선주소를 DMAC 또는 입 출 
력장치의 적절한 입출력포구에 기록해 야 한다. 

많은 입출력구동프로그람이 연산속도를 높이려고 DMAC 를 활용한다. DMAC 는 자 
료전송을 위해 장치 의 입 출력 조종기 와 호상작용하며 핵 심 부는 DMAC 프로그람작성 을 위 
해 쉽게 사용할수 있는 루린을 제공한다. 입출력조종기는 자료전송을 완료하면 IRQ 를 
통해 CPU 에 신호를 보낸다. 

장치구동프로그람이 입출력장치에 대해 DMA 연산을 설정하는 경우 모선주소를 사 
용하여 사용할 기억기완충기를 지정해야 한다. 핵심부는 선형주소를 모선주소로 변환하 
기 위한 virt _ to_bus 그리고 그 반대로 변환하기 위한 bus _ to_virt 마크로를 제공한 
다. ( include \ asm - i 386\ io . h ) 

IRQ 행과 마찬가지로 DMAC 도 요청하는 구동프로그람에 동적으로 할당해야 하는 
자원이 다. 구동프로그람이 DMA 연산을 시작하고 끝내는 방법은 모선류형에 따라 다르 
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다. PCI, SCSI 와 같은 모선의 경우 IRQ 행의 할당과 DMA 전송시 동이라는 2 단계 로 실 
행 된 다. 장치 파일 을 열 때 DMA 연산의 완료를 알리 기 위해 사용할 IRQ 행 을 할당한 
다. (《 장치구동프로그람초기 화》참고) DMA 연산을 시 작하기 위 해 장치 구동프로그람은 
DMA 완충기 의 모선주소, 전송방향, 자료의 크기 를 하드웨 어장치 의 입 출력 포구에 기 록 
한다. 구동프로그람은 현재 프로쎄 스를 대 기 시 킨다. DMA 전송이 끝나면 하드웨 어 장치 가 
새 치기를 발생시켜 장치구동프로그람을 깨운다. 마지막프로쎄 스가 과일객체를 닫으면 장 
치파일의 release 메쏘드가 IRQ 행을 해제 한다. 

5. 장치파일 

1 장에서 고찰한바와 같이 Unix 계렬조작체계는 파일이라는 개념에 바탕을 둔다. 파 
일은 바이트의 련속으로 이루어진 정보를 보관하는 그릇이다. 이 접근방법에 따라 입출 
력장치도 파일로 취급한다. 따라서 디스크에 있는 정규파일을 읽고쓸 때 사용하는 체계 
호출을 입출력장치에도 사용할수 있다. 례를 들어 갈은 writeO 체계호출을 사용하여 정 
규파일에 자료를 쓰기도 하고 /dev/lpO 장치파일에 써서 인쇄기로 보낸다. 

기초로 되는 장치구동프로그람의 특성에 따라 장치파일을 블로크 (block) 와 문자 
(character) 라는 두 류형으로 분류한다. 두가지 하드웨어장치의 차이는 명확하지는 않 
지만 최소한 다음과 같이 말할수 있다. 

- 블로크장치의 자료는 임의로 참조할수 있다. 자료블로크를 전송하는데 걸리는 시 
간이(최소한 사람이 보기에) 짧으며 항상 거의 같다. 전형적 인 블로크장치의 실례는 하 
드디 스크， 유연성디 스크， CD-ROM, DVD 재 생 기 등이 다. 

- 문자장치의 자료는 임의로 참조할수 없거나(례를 들면 음성카트) 임의로 참조할 
수는 있지만 임의의 위치의 자료에 접근하는 시간은 장치안에서의 위치에 크게 의존한 
다. (례 를 들면 자기 테 프구동프로그람) 

망카드는 이 류형분류에서 대표적인 례외이며 파일에 직접 대응하지 않는 하드웨어 
장치 이 다. 

Linux 에는 체계의 등록부나무에 실제파일이 보관되는 구식 (old-style) 장치파일과 
/proc 파일체게처럼 가상파일인 devfs 장치파일이라는 두 종류의 장치파일이 있다. 그러 
면 이 두 종류의 장치파일을 더 자세히 보자. 

1) 구식장치파일 

구식 장치 파일 은 Unix 조작체 계 초기 판본부터 사용되 여 왔다. 구식 장치 파일 은 파일 체 
계에 보관된 실제파일이다. 그러나 파일의 색인마디는 디스크의 자료블 로크를 참조하지 
않는다. 대신 색 인마디는 하드웨 어장치를 나타내는 식별자를 가지고있다. 장치 이름과 류 
형(앞에서 설명 한것처 럼 블 로크 인지 문자인지)외 에 각 장치파일은 중요한 속성 두개를 
가지고있 다. 
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주번호 (Major number ) 

장치류형을 나타내는 1에서 2 M 사이의 수자이 다. 일반적으로 동일한 주번호와 류형 
을 가진 모든 장치파일은 같은 장치구동프로그람에 의해 처리되며 따라서 동일한 파일연 
산모임을 공유한다. 

주번호 (Minor number ) 

갈은 주번호를 공유하는 여러 장치중에서 특수한 장치를 나타내는 수자이다. 

구식장치파일을 생성 하기 위 해 mknodO 체계호출을 사용한다. 이 체계 호출의 매개 
번수는 장치파일의 이름과 류형 그리고 주, 부번호이다. 주，부번호라는 두 파라메터를 
16 bit dev_t 수자로 변환한다. 여기서 웃자리 8 bit 는 주번호, 아래자리 8 bit 는 부번호 
를 나타낸다. MAJOR , MINOR 마크로를 사용하여 16 bit 수자에서 두 값을 추출할수 있 
으며 MKDEV 마크로를 사용하여 주번호와 부번호를 합처서 16 bit 수자로 만든다. 실제 
로 dev _ t 는 응용프로그람에서 주로 사용하는 자료형 이고 핵심부는 kdev_t 자료형을 사 
용한다. 현재의 Linux 핵심부에서 이 두 형은 unsigned short int 지만 미래의 Linux 
판본에서 kdev _ t 는 완전한 장치파일서술자가 될것이다. 주번호와 부번호는 색인마디객 
체의 i _ rdev 마당에 보관한다. 장치 파일의 류형 (블로크인지 문자인지)은 i _ mode 마당에 
보관한다. 

일반적으로 장치파일은 / dev 등록부에 보관한다. 표 5-12 에서 몇가지 장치파일의 
속성을 보여준다. 

일 반적 으로 장치 파일은 하드웨 어 장치 (/ dev 八 Ida 같은 하드디스크) 또는 하드웨 어 장 
치의 물리적 또는 론리적인 일부 (/ dev / hda 2 같은 디스크구획)와 대응한다. 그러나 어 
떤 경우에 장치파일은 실제하드웨어장치에 대응하지 않고 가상적인 론리적장치를 나타낸 
다. 례를 들어 八 iev / null 은《검은 구멍》과 같은 장치파일이다. 이 장치파일에 기록 
되는 모든 자료는 사라지 며 파일은 언제 나 비 여있는것 처 럼 보인다. 


m 5 - 12 . 장치실部 


이름 

류형 

주번 호 

부번호 

설 명 

/ dev/fdO 

블로크 

2 

0 

유연성디스크 

/ dev/had 

블로크 

3 

0 

첫번째 IDE 디스크 

/ dev / hda 2 

블로크 

3 

2 

첫번째 IDE 디스크의 두번째 기 
본구획 

/ dev/hdb 

블로크 

3 

64 

두번째 IDE 디 스크 

/ dev / hdb 3 

블로크 

3 

67 

두번째 IDE 디스크의 세번째 기 

본구획 

/ dev/ttypO 

문자 

3 

0 

말단 

/ dev/console 

문자 

5 

1 

콘솔 
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/dev/lpl 

문자 

6 

1 

병 렬 인쇄 기 

/dev/ttyso 

문자 

4 

64 

첫번째 직렬포구 

/dev/rtc 

문자 

10 

135 

실시간박자 

/dev/null 

문자 

1 

3 

빈장치 (검 은구멍 ) 


2) Devfs 장치파일 

장치파일을 주번호와 부번호를 사용하여 표현하는데는 몇가지 한계 가 있다. 

1. /dev 등록부에 있는 장치의 대부분이 실제로 존재하지 않는다. 새로운 입출력장 
치를 설치할 때마다 체계관리 자가 새로운 장치파일을 설치 할 필요가 없도록 /dev 등록부 
에 장치파일들이 있다. 그러나 보통 /dev 등록부에 장치파일이 1800개이상 있으며 처음 
참조할 때 색 인마디탐색 시 간을 증가시 킨다. 

2. 주번호와 부번호는 각각 8bit 이다. 이 값은 어떤 하드웨 어장치의 경우 한계가 된 
다. 례를 들어 초대형체계에 있는 SCSI 장치를 식별할 때 문제가 생긴다. (Linux 에서는 
우회적인 방법으로 SCSI 디스크구동프로그람에 여러 주번호를 할당하였다. 그 결과 핵 
심부는 SCSI 디스크를 128개까지 지원한다.) 

devfs 장치파일은 이런 문제들과 다른 사소한 문제를 해결하기 위해 도입되였다. 그 
리나 아직까지도 광범하게 사용되고있지 않다. 따라서 코드를 설명하지 않고 주요개념만 
설명 한다. 

devfs 가상파일체계는 구동프로그람이 주번호, 부번호 대신 이름을 사용하여 장치를 
등록하도록 한다. 핵심부는 특수한장치를 탐색하는 작업을 쉽게 하려고 기본명명규칙을 
제공한다. 실례를 들어 모든 디스크장치는 /dev/discs 가상등록부에 있다. 따라서 
/dev/hda 는 /dev/discs/disc 

0， /dev/hdb 는 /dev/discs/disci°1 될것이다. 사용자는 장치관리데몬을 적절히 
설정하여 이전의 이름규칙도 계속 사용할수 있다. evfs 파일체계를 사용하는 입출력구 
동프로그람은 devfs_register() 를 호출하여 장치를등록한다. 함수는 장치파일이름，장 
치 구동프로그람메 쏘드표을 가리 키 는 지 적 자를 포함하는 새 로운 devfs_entry 구조체 를 
생성 한다. 

등록된 장치파일은 자동으로 devfs 가상등록부에 나타난다. 이 등록부에 있는 장치 
파일의 색인마디객체는 파일에 접근할 때에만 생성된다. devfs 파일의 덴트리객체가 파 
일연산을 가리키는 지적자를 가지고있기때문에 장치파일을 여는것이 좀 더 효률적이 
다. (뒤부분에 있는《장치구동프로그람초기 화》참고) 

그러나 devfs 에도 몇가지 문제가 있다. 가장 중요한 점은 주번호，부번호는 Unix 
체계에서 어느 정도 불가피하다는 사실이다. 첫째로 NFS 봉사기나 find 명령과 같은 사 
용자방식 응용프로그람은 주어 진 과일을 포함하는 물러 적 디 스크구획 을 나타내 기 위 해 주 
번호, 부번호에 의존한다. 둘째로 장치번호는 POSIX 표준에서도 요구하고있다. 따라서 
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devfs 계층은 핵심부가 구식장치파일처럼 각 장치구동프로그람에 대해 주번호와 부번호 
를 정의하도록 하고있다. 현재 거의 모든 장치구동프로그람은 대응하는 구식장치파일과 
같은 주번호，부번호를 devfs 장치파일에 련관시키고있다. 이런 리유로 여기에서도 계속 
구식장치파일에 주로 중점을 둔다. 

3) VFS 의 장치파일처리 

장치파일은 체계등록부안에 있지만 정규파일이나 등록부와 근본적으로 다르다. 프로 
쎄스가 정규파일에 접근하는 경우 파일체 계를 통해 디스크구획내의 자료블로크에 접근한 
다. 그러 나 프로쎄스가 장치파일에 접근하는 경우 프로쎄스는 (파일의 내용을 읽거 나 쓰 
지 않고) 단지 하드웨어장치를 구동할뿐이 다. 례를 들어 프로쎄스가 콤퓨터에 련결된 수 
자형온도계 로부터 방의 온도를 알아내 려 고 장치파일을 사용할수 있 다. 응용프로그람이 
장치파일과 정규파일을 구별하지 못하도록 하는것은 VFS 책 임 이 다. 

이것을 처리하기 위해 장치파일을 열 때 VFS 가 장치파일의 기본파일연산을 변경한 
다. 그 결과 해당 장치파일에 대한 체계호출은 장치파일이 들어있는 과일체계가 제공하 
는 함수가 아닌 장치와 관련한 함수의 호출로 바권다. 장치와 관련한 함수는 하드웨어장 
치 에 작용하여 프로쎄 스가 요청한 연산을 실 행 한다. 

프로쎄 스가(블로크형 이든 문자형 이든)장치 파일에 대 해 openO 체 계 호출을 실행 하였 
다고 하자. 요약하면 체계호출에 대응하는 봉사루린이 경로명을 장치파일로 판단하고 파 
일에 대응하는 색인마디객체 , 덴트리객체 , 파일객체를 생성한다. 구식장치파일의 경우를 
보면 파일체계의 적절한 함수(보통 ext2_read_inode()) 를 사용하여 파일에 대응하는 
색 인마디를 디스크에서 읽 어서 색 인마디객체를 초기 화한다. 디스크색 인마디 가 장치 파일 
의것이라고 판단하면 init_special_inode 0 를 호출하여 색인마디객체의 i_rdev 마당을 
장치파일의 주번호, 부번호로 초기화하고 색인마디객체의 i_fop 마당을 장치파일의 류형 
에 따라 def_blk_fops 구조체 또는 def_chr_fops 구조체로 설정한다. openO 체계호출의 
봉사루린은 dentry_open () 함수를 호출하며 이 함수는 새로운 파일객체를 할당하고 파 
일객체의 f_op 마당을 i_fop 에 들어 있는 주소로 설정한다. 

이 주소는(장치파일의 형에 따라) def_blk_fops 또는 fef_chr_fops 의 주소이다. 
이 두 구조체 의 내 용은 뒤 에 나오는《 블로크장치 구동프로그람》과《 문자장치 구동프로 
그람》에서 볼수 있다. 이것들을 통해서 장치파일을 대상으로 호출한 체계호출은 파일체 
계 함수대 신 장치 구동프로그람함수를 호출하게 된 다. 


6. 장치구동프로그람 


장치구동프로그람은 잘 정의된 프로그람작성대 면부를 통해 하드웨 어장치 에 물어보고 
대 답하게 해 주는 쏘프트웨 어 계층이 다. 이 대 면부는 이 미 익 숙한 함수들이다. 즉 VFS 
함수 (open, read, lseek, ioctl 등)를 장치조종에도 사용한다. 장치구동프로그람이 이 
함수들을 실제 로 구현한다. 각 장치는 독자적 인 입출력조종기 (I 八 D controller) 를 가지 
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고있으며 따라서 독자적 인 명 령과 상태정보를 포함하기때 문에 대부분의 입출력장치 에는 
독자적 인 장치가 있다. 

장치 구동프로그람에 는 많은 류형 이 있 다. 이 것 들은 사용자방식 응용프로그람에 제 공 
하는 지원수준, 하드웨 어장치 에서 수집한 자료를 완충하는 기 법 등의 측면에서 크게 다 
르다. 이 런 측면이 장치구동프로그람의 내부구조에 큰 영향을 주기때문에 이에 관해서는 
( 핵 심부지 원수준》과《장치구동프로그람의 완충기 법》에서 설명 한다. 

장치구동프로그람은 장치파일연산을 구현 하는 함수만으로 구성 되 지 않는다. 장치 구 
동프로그람을 사용하기 전에 장치구동프로그람의 등록과 초기화라는 두가지 일을 수행해 
야 한다. 또한 장치 구동프로그람이 자료를 전송할 때 입 출력 연산을 감시 ( monitor ) 해 야 
한다. 《장치구동프로그람등록》과《장치구동프로그람초기 화》, 《입출력연산의 감시》 
에서 이런 일을 어떻게 처리하는지 고찰할것이다. 

1) 핵심부지원수준 

Linux 핵심부는 존재하는 모든 입출력장치를 완벽하게 지원하지는 않는다. 간단히 
말해서 하드웨어장치에 대한 지원에는 다음과 갈은 3종류가 있다. 

o 지원하지 않음 

응용프로그람이 적절한 in , out 아셈블러 명 령을 사용해서 장치의 입 출력포구와 직접 
호상작용한다. 

o 최 소지 원 

핵심부는 하드웨어장치를 인식하지 않고 단지 해당 입출력대면부만 인식한다. 사용 
자프로그람은 해당 대면부를 일련의 문자렬을 읽고 쓸수 있는 순차적장치로 다룰수 있다. 

o 확장지 원 

핵 심 부는 하드웨 어 장치 를 인식 하고 입 출력 대 면부를 직 접 처 리한다. 사실 장치 에 대 
한 장치과일조차 없는 경우도 있다. 

첫번째 접근방법 즉 핵심부의 장치구동프로그람에 의존하지 않는 접근방법의 례로 
X 원도우체계 가 도형표시장치를 처 리하는 방법을 들수 있다. 이 접근방법은 매우 효률적 
이지만 입출력장치 가 발생시키는 하드웨 어새 치기를 X 봉사기 가 활용할수 없다는 부족점 
이 있다. 또 필요한 입출력포구에 접근하기 위해 추가적인 노력이 필요하다. 3장 1절의 
《 과제 상태 토막》에 서 취 급한것 처 럼 iopl 0 과 ioperm () 체 계 호출을 사용하여 프로쎄 스에 
입출력포구에 접근할수 있는 특권을 줄수 있다. 뿌리 ( root ) 권한을 소유한 프로그람만 
이 체 계 호출을 실행할수 있지 만 실행 파일의 fsuid 마당을 초사용자 (8 장 4절의 《 프로쎄 
스의 자격과 특질》참고)의 UID 를 0으로 설정하면 일반사용자도 프로그람을 사용할수 
있 다. 

최신 Linux 판본은 사용자들이 많이 사용하는 대부분의 도형카드를 지원한다. 
/ dev / fb 장치파일이 도형카드의 프레임완충기에 대한 추상화를 제공하여 응용프로그람 
쏘프트웨어가 도형대면부의 입출력포구에 관해 전혀 알 필요없이 도형카드에 접근할수 
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있도록 한다. 뿐만아니라 Linux 핵심부는 DRI (Direct Rendering Infrastructure ) 

지 원하여 응용프로그람쏘프트웨 어 가 3 D 가속도형 카드의 하드웨 어 를 활용할수 있게 해 준 
다. 그렇지만 아직도 직접 모든 일을 처 리하는 X 원도우봉사기도 많이 사용되고있다. 

최 소지 원방법 은 일 반입 출력대 면부에 련결된 외 부하드웨 어장치 를 처 리하는데 쓰인다. 
핵 심부는 장치 파일(따라서 결국 장치 구동프로그람)을 제공하여 입 출력 대 면부를 관리 한다. 
응용프로그람은 장치 과일 을 읽 고 쓰는것 으로 외 부하드웨 어장치 를 처 리 한다. 

핵 심부크기를 작게 유지할수 있기때 문에 확장지 원방법보다 최 소지 원방법 을 선택 한다. 
그렇지만 PC 에서 볼수 있는 일반입출력대면부에서는 단지 직렬포구와 병렬포구만 이 접 
근방법을 사용한다. 따라서 직렬마우스는 X 봉사기 같은 응용프로그람으로 직접 조종하 
며 직렬모뎀에는 항상 Minicom , Seyon 과 같은 통신프로그람이나 PPP(Point to 
Point Protocol ) 데몬이 필요하다. 

외 부장치 가 핵 심 부내 부자료구조와 밀 접 하게 호상작용하는 경 우에 는 최 소지 원 방법 을 
사용할수 없기때문에 제한된 범위의 응용프로그람만 사용할수 있다. 례를 들어 외장형 
하드디스크가 일반입출력대면부에 련결되여있다고 가정하자. 응용프로그람은 디스크를 
인식하고 디스크의 파일체계를 탑재하는데 필요한 모든 핵심부자료구조, 함수와 호상작 
용할수 없으므로 이 경우 확장지 원방법을 사용해 야 한다. 

일반적으로 내부 하드디스크 처럼 입출력모선에 직접 련결된 모든 하드웨어장치는 확 
장지원접근방법에 따라 처 리한다. 핵심부는 각 장치에 대해 장치구동프로그람을 제공해 
야 한다. 

USB , 노트를에서 볼수 있는 PCMCIA 포구， SCSI 대면부 등 간단히 말해 직렬포 
구와 병렬포구 이외의 모든 일반입출력대면부와 련결하는 외부장치는 모두 확장지원방법 
을 사용한다. 

open () , readO , write () 같은 파일 관련표준체 계 호출이 언제 나 기 반하드웨 어 장치 
의 모든 조종권을 응용프로그람에 주지는 않는다는 점을 기 억해 야 한다. 사실 최소공통 
기능만을 제공하는 VFS 의 접근방법은 어떤 장치가 특수한 내부상태에 있는지 여부를 
응용프로그람이 알수 있도록 하는 특수명령을 제공할 여지가 없다. 

그런 필요를 만족시 키 기 위 해 POSIX 표준에 서 ioctlO 체 계 호출을 도입하였 다. 이 
체 계호출은 장치파일의 파일서술자요청을 지정 하는 32 bit 파라메터외 에 임의로 추가적 인 
파라메터 를 가질수 있 다. 례 를 들어 CD - ROM 의 음성 크기 를 얻거 나 CD - ROM 디 스크를 
배출하는 특수한 ioctlO 요청이 존재한다. 응용프로그람은 이런 ioctlO 요청을 사용하여 
CD 재생기와 갈은 사용자대면부를 구현할수 있다. 

2) 장치 구동프로그람의 완충기법 

전통적 으로 Unix 계 렬의 조작체 계 는 하드웨 어 장치 를 블로크와 문자장치 로 구분한다. 

그러나 이 분류가 모든것을 말해주는것은 아니다. 어떤 장치는 입출력연산 한번으로 
많은 량의 자료를 전송할수 있는 반면에 다른 장치는 단지 문자 몇개만을 전송하기때문 
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이 다. 례 를 들어 PS /2 마우스구동프로그람은 읽 기연산 한번 으로 몇 바이 트만을 읽 는다. 
이것들은 마우스단추의 상태와 화면에서 마우스지적자의 위치 등에 대응한다. 이런 장치 
는 가장 다루기 쉬운 종류에 속한다. 한번에 한 문자씩 장치의 입 력등록기 에서 입 력자료 
를 읽어서 적 절한 핵 심 부자료구조에 보관한다. 출력자료도 프로쎄 스주소공간에 서 핵 심부 
자료구조로 복사한 다음 한번에 하나씩 입출력장치의 출력등록기에 쓴다. 이런 장치의 
경우 DMA 입출력연산을 설정 하는 시 간이 입출력포구에서 자료를 읽거 나 쓰는데 걸리는 
시 간과 비슷할 정도이기때문에 입출력구동프로그람은 DMAC 를 사용하지 않는다. 

반면 에 핵 심 부는 각 입 출력연산에 서 많은량의 자료를 쏟아내 는 장치 도 처 리할수 있 
어야 한다. 이런 장치에는 음성카드, 망카드 같은 순차적장치나 모든 종류(유연성， 
CDROM , SCSI 디스크)의 디스크 같은 임의의 접근장치들이 포함된다. 

례 를 들어 름퓨터 에 들어있는 음성카드를 설정해서 마이 크에 서 들어 오는 소리 를 록 
음하려 한다고 가정하자. 음성카드는 마이크에서 들어오는 전기적인 신호를 44.14 kHz 
의 고정 된 주기 로 표본화해 서 입 력자료로부터 련속적 인 16 bit 수값을 생 성한다. 음성 카드 
구동프로그람은 어떤 경우라도 심지어 CPU 가 다른 프로쎄스를 실행하느라 바쁜중에도 
이 많은 자료를 처 리할수 있 어 야 한다. 

이 문제를 해결하기 위해 두가지 기법을 결합하여 사용한다. 

- 자료블로크전송을 위해 DMA 프로쎄 스를 사용한다. 

- 각 요소가 자료블로크크기인 요소 두개 이상을 가지는 원형완충기를 사용한다. 
새로운 자료블로크를 읽었음을 알리는 새 치기가 발생하면 새 치기처 리기는 원형 완충기의 
요소를 가리 키는 지 적자를 증가시 켜 빈 요소에 자료를 보관할수 있도록 한다. 

반대 로 구동프로그람이 자료블로크를 사용자주소공간으로 성 공적 으로 복사하면 원형 
완충기 의 요소를 해 제 하여 하드웨 어 장치 에 서 오는 새 로운 자료를 보관하는데 사용하도록 
한다. 원형완충기는 CPU 부하의 최고값 ( peak ) 을 낮추는 역활을 한다. 자료를 받아들이 
는 사용자방식응용프로그람이 우선순위 가 높은 다른 과제때 문에 늦어 지 더 라도 새 치 기 처 
리기는 현재실행프로쎄스중에 실행되므로 DMAC 는 원형완충기의 요소를 계속 채울수 
있 다. 

망카드에서 파케트를 받을 때에도 비슷한 상황이 발생한다. 이 경우 들어오는 자료 
의 흐름은 비동기적 이다. 파케트는 서로 독립적으로 수신되며 린접하는 두 파케트의 도 
착시간간격을 예측할수 없다. 

그럼에도 같은 완충기를 재사용하지 않으므로 순차적장치의 완충기처리는 쉬운 편이 
다. 음성응용프로그람은 마이크에 갈은 자료블로크를 다시 전송해달라고 요청할수 없다. 
망응용프로그람도 망카드에 같은 파케트을 다시 전송해 달라고 요청 할수 없다. 

반면에 임의의 접근장치(모든 종류의 디스크)에 대한 완충은 훨씬 더 복잡하다. 이 
경우 응용프로그람은 갈은 자료블로크를 반복해서 읽거 나 쓸수 있다. 더군다나 이 런 장 
치에 대한 접근은 매우 느리다. 이런 이상한 특성이 디스크구동프로그람의 구조에 큰 영 
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향을 준다. 따라서 임의의 접근장치의 완충기는 다른 역 활을 수행한다. CPU 부하의 최 
고값을 낮추는 대신 어떤 프로쎄스에서도 당장은 더 필요없는 자료를 가지고있으면서 다 
른 프로쎄 스가 나중에 완충기안에 들어있는 자료를 요청 하는 경 우를 대 비한다. 다시 말 
해서 완충기 는 디 스크접근의 회 수를 줄이 는 쏘프트웨 어 캐 쉬 (4 장 3절 참고)의 기본구성 
요소이다. 

3) 장치구동프로그람등록 

앞에서 핵심부가 장치파일에 대한 체계호출을 대응하는 장치구동프로그람의 적절한 
함수호출로 변환한다는 사실을 보았다. 이를 위해 장치구동프로그람은 자기를 동록해야 
한다. 다시 말해 서 장치구동프로그람을 등록한다는것 은 장치구동프로그람과 대 응하는 장 
치파일과 련결한다는것을 의미한다. 구동프로그람이 아직 등록되지 않은 장치파일에 접 
근하면 오유코드 ENODEV 를 반환한다. 

장치구동프로그람이 정적으로 를파일되여 핵심부에 포함되여있다면 핵심부초기화과 
정 에서 구동프로그람의 등록이 이 루어 진다. 장치구동프로그람이 핵 심부모듈로 를파일되 
여있다면 모듈을 적재할 때 등록이 이루어 진다. 모듈의 경우 장치구동프로그람은 모듈이 
탑재해제될 때 자기의 등록을 취소할수도 있다. 구식장치파일을 사용하는 문자장치구동 
프로그람을 나타내는 자료구조는 char _ device _ struct 의 배렬인 chrdevs 이다. 
static struct char _ device_struct { 
struct char _ device_struct * next ； 
unsigned int major ； 
unsigned int baseminor ； 
int minorct ； 
const char * name ; 
struct file_operations * fops ； 
struct cdev * cdev ； /* will die */ 

} * chrdevs [ MAX _ PROBE _ HASH ] ； 

(\ fs \ char _ dev . c ) 
struct cdev { 

struct kobject kobj ； 
struct module * owner ; 
struct file_operations * ops ; 
struct list_head list ； 
dev_t dev ； 
unsigned int count ； 

}； 

(\ include \ linux\cde v . h ) 
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각 배렬첨수는 장치파일의 주번호이다. 주번호의 범위는 1( 주번호 0을 가질수있는 
장치 파일 은 없 다) 에 서 2 M (255 는 이 후확장을 위 해 예 약되 여있 다. )까지 이 므로 배 렬 은 요 
소를 255개 포함한다. 그렇지만 배럴의 첫번째 요소는 사용되지 않는다. 

각 char _ device _ struct 구조체는 name , fops 라는 두 마당을 포함한다. name 은 
장치 클라스의 이름을 가리 키고 fops 는 file _ operations 구조체를 가리 킨다. 이와 류사하 
게 블로크장치구동프로그람은 자료구조 255개의 배렬인 blkdevs 로 나타낸다. (chrdevs 
배럴과 마찬가지로 첫번째 요소는 사용되지 않는다.) 각 구조체는 다음 두 마당을 포함 
한다. name 은 장치를라스의 이름을 가리키고 bdops 는 block _ device _ operations 구조 
체를 가리킨다. bdops 에는 블로크장치구동프로그람의 핵심적인 연산을 위한 몇가지 독 
자적 인 메쏘드가 있다. (표 5-13 참고) 


■ 5-13. 管3크&치구동교 i ? 그람의 ffl [쏘드 


메쏘드 

메쏘드의 실행을 시작하도록 하는 사건 

Open 

블로크장치파일을 여는 경우 

release 

블로크장치과일 이 마지막 참조를 닫는 경우 

ioctl 

블로크장치파일에 대해 idcdO 체계호출을 실행하는 경우 

check _ media _ 

change 

매체가 바귀었는지 검사한다. (례를 들면 유연성디스크) 

revalidate 

블로크장치가 유효한 자료를 가지고있는지 검사한다. 


chrdevs 와 blkdevs 배 렬 은 초기 에 는 비 여 있 다. register_chrdev 0 와 

register _ blkdev () 함수를 사용하여 이 배렬에 새로운 요소를 삽입한다. ( include\linu 
x \ fs . h , fs \ char _ dev . c , fs \ block _ dev . c ) 

모둘로 구현된 장치구동프로그람의 경우 모둘이 탑재해제될 때 

unregister_clirdevO 함수를 사용하여 등록을 취소할수 있다. 

례를 들어 병렬인쇄기구동프로그람 콜라스를 위한 서술자를 chrdevs 배럴에 다음과 
같이 삽입할수 있 다. 

register — chrdev (6, " lp ", & lp _ fops ) : 

첫 번째 파라메터 는 주번호를 나타내 고 두번째 는 장치 클라스이 름, 마지 막은 파일 연산 
의 배렬을 가리킨다. 등록하고나면 장치구동프로그람이 장치파일의 경로명이 아닌 장치 
파일의 주번호와 련결된다. 따라서 경로명과 관계없이 장치파일에 대한 접근은 대응하는 
구동프로그람을 활용한다. 

4) 장치구동프로그람초기화 

장치 구동프로그람의 등록과 초기화는 아주 다른 개념 이 다. 사용자방식 응용프로그람 
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이 장치파일을 통해 사용할수 있도록 장치구동프로그람의 등록은 최대한 빨리 이루어지 
는 반면에 초기화는 최대한 늦게 이루어진다. 사실 구동프로그람을 초기화하면 체계의 
비관 자원을 할당하게 되며 다른 구동프로그람이 사용할수 없게 된다. 

《입출력새치기처리》에서 본것처럼 IRQ 의 경우에도 여러 장치가 한 IRQ 행을 공 
유할수 있도록 IRQ 를 장치에 할당하는것은 사용직전에 동적으로 이루어진다, 가능하면 
늦게 할당할수 있는 자원으로 DMA 전송완충기 DMA 통로를 위한 폐지틀을 들수 있 
다. (유연성 디 스크구동프로그람과 같은 비 PCI 장치 의 경 우) 

장치구동프로그람은 필요할 때 자원을 얻을수 있게 하면서도 이미 할당된 자원을 여 
러번 요청하는것을 막으려고 다음과 같은 기법을 사용한다. 

사용계수기가 현재장치파일에 접근하고있는 프로쎄스의 수를 관리한다. 계수기는 
장치파일의 open 메쏘드에서 증가하고 release 메쏘드에서 감소한다. 

open 메쏘드는 사용계수기의 값을 검사한 다음 증가시킨다. 계수기가 0이면 장치구 
동프로그람이 자원을 할당하고 하드웨어장치에 대해 새치기와 DMA 를 활성화해야 한다. 

release 메 쏘드는 감소시킨 다음 계수기의 값을 검사한다. 계수기가 0이면 하드웨어 
장치를 사용하는 프로쎄스가 없다. 이 경우 메쏘드는 입출력조종기에 대해 새치기와 
DMA 를 비 활성 화하고 할당된 자원을 해 제한다. 

7. 입 출력연산조종 

입출력연산의 지속시간은 예측하기 어렵다. 기계적인 고려사항(전송할 블로크에 대 
한 디스크자두의 현재위치)은 말그대로 임의적인 사건(자료파케트가 언제 망카드에 도착 
할것인가) 또한 인위적인 요소(사용자가 언제 건반을 누를것인지 또는 언제 인쇄기에 종 
이가 걸렸는지 알아차릴것인가)에 따라 달라진다. 어떤 경우든 입출력연산을 시작한 장 
치구동프로그람은 입 출력연산을 완료했는지 또는 시 간넘 침 이 되 였는지 알려주는 조종기 
법 에 의존해 야 한다. 

연산을 완료하면 장치구동프로그람은 입 출력대 면부의 상태등록기 를 읽 어서 입 출력연 
산을 제대로 실행했는지 결정한다. 시간넘침의 경우 해당 연산에 주어진 시간이 지났고 
아무런 일도 발생하지 않았으므로 무엇인가 잘못되였다는 사실을 구동프로그람이 알게 
된다. 입출력연산의 완료를 조종하는 기법으로 문의방식 (polling mode ) 과 새 치기방식 
(interrupt mode ) 이 있다. 

1) 문의방식 

이 기법을 사용하면 입출력연산을 마쳤다는 의미로 상태등록기의 값이 변경될 때까 
지 CPU 장치의 상태등록기를 계속 반복하여 검사(문의)한다. 프로쎄스가 이미 사용중 
인 스핀잠그기를 엄으려 할 때 그 값이 0이 될 때까지 계속 반복하여 검사한다. 그러나 
입출력연산에 문의을 적용하면 기다리는 시간이 너무 길고 구동프로그람의 시간넘침시간 
도 기억해 야 하므로 비용이 훨씬 많이 들게 된다. 
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간단한 문의의 례는 다음과 같다. 

처리기의 시간랑비를 줄이기 위해 장치구동프로그람은 각 문의연산이 끝난 다음에 
자발적으로 CPU 를 놓아주어 다른 실 행 가능한 프로쎄 스를 계속 실행할수 있도록 한다. 

for (;;){ 

if (read_status(device) &DEVICE END_OPERATION) break ； 
if (—count == 0) break ； 

} 

순환에 들어가기 전에 초기화한 count 변수는 반복할 때마다 감소하므로 단순한 시 
간넘침기구를 구현하는데 사용할수 있다. 더 정확한 시간넘침기구를 위해 반복할 때마다 
틱크계수기 jiffies 값을 읽어서 대기순환 (wait loop) 을 시작하기 전에 읽은 값과 비교하 
여 구현할수 있다. 

입출력연산을 완료할 때까지 소요한 시간이 상대적으로 길어서 수 ms 이상이라면 이 
기법은 입출력이 완료하기를 기다리며 CPU 가 귀중한 실행시간을 랑비하게 하므로 비효 
률 적이다. 따라서 매 문의연산 다음에 schedule () 함수호출을 삽입하여 자발적으로 
CPU 를 풀어주는것 이 좋을것 이 다. 

2) 새치기방식 

새치기방식은 입출력조종기가 IRQ 행을 통해 입출력연산이 끝났음을 신호로 알려줄 
수 있을 때에만 사용할수 있다. 단순한 경우 새치기방식이 어떻게 동작하는지 보자. 단 
순한 입력문자장치를 위한 구동프로그람을 작성한다고 가정하자. 사용자가 장치에 대응 
하는 장치파일에 대해 readO 체계호출을 실행하면 입력명령이 장치의 조종등록기로 전 
송된다. 긴 시간간격이 지난 다음 장치가 자료 한 바이트를 입력등록기에 넣는다. 장치 
구동프로그람은 readO 체계호출의 결과로 그 바이트를 반환한다. 

이런 경우가 새치기방식으로 구동프로그람을 구현하는것이 좋은 전형적인 경우이다. 
사실 장치 구동프로그람은 하드웨 어 장치 에 서 결과를 받으러 고 얼 마나 오래 동안 기다려 야 
하는지 알수 없다. 핵심적으로 구동프로그람은 두 함수를 포함한다. 

1. foo_read() 함수는 파일객체의 read 메쏘드를 구현한다. 

2. foojnterrupt () 함수는 새 치기를 처 리 한다. 

foo_read() 함수는 사용자가 장치파일을 읽을 때 구동된다. 

장치구동프로그람은 foo_dev_t 형의 독자적인 서술자를 사용한다. 서술자는 하드웨 
어장치에 대한 동시접근을 방지해주는 신호기 sem, 대기렬 wait, 장치가 새치기를 발 
생시키면 설정되는 기발 intr, 새치기가 쓰고 read 메쏘드가 읽는 한 바이트완충기 
data 등을 포함한다. 일반적으로 새치기를 사용하는 모든 입출력구동프로그람은 새치기 
처리기와 read, write 메쏘드가 같이 접근하는 자료구조를 사용한다. foo_dev_t 서술자 
의 주소는 일반적으로 장치파일의 파일객체에 있는 private_data 마당이나 대역변수에 
보관된다. 
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foo _ read () 함수의 주요동작은 다음과 같다. 

1. foo _ dev->sem 신호기를 획득하여 다른 프로쎄스가 장치 에 접근하지 못하도록 
한다. 

2. intr 기발을 지운다. 

3. 입출력장치에 read 명 령을 보낸다. 

4. wait _ event _ interrupt 比) le 을 실행하여 intr 기발이 1이 될 때까지 프로쎄스를 
연기 한다. 

시간이 지난 다음 장치는 새치기를 발생시켜 입출력연산을 완료했으며 자료가 적절 
한 DEV _ FOO _ DATA_PORT 자료포구에 있다는 사실을 알린다. 새 치기처 리기는 intr 
기 발을 설정 하고 프로쎄 스를 깨 운다. 순서짜기프로그람이 프로쎄 스를 재 실행하도록 결정 
한 경우 foo _ read () 의 나머지 부분을 다음과 같이 실행한다. 

1 . foo _ dev -> data 변수에 들어있는 문자를 사용자주소공간으로 복사한다. 

2. foo _ dev -> sem 4 li 7] 해제한 다음 완료한다. 

간단하게 설명 하려 고 시 간넘 침조종에 관해서는 설명 하지 않았다. 일반적으로 시 간넘 
침조종은 정적 또는 동적시계를 사용하여 구현한다. 시계는 입출력연산시작전에 설정하 
고 연산을 완료하면 제거한다. 

이제 foo _ interrupt () 함수를 보자. 

void foojnterrupt (int irq , void * dev _ id , struct pt_regs * regs ) 

{ 

foo->data =inb ( DEV _ FOO _ DATA _ PORT ) : 

foo -> intr = l ； 

wake _ up_interruptible (& foo -> wait ) : 

} 

새치기처리기는 장치의 입력등록기에서 문자를 읽어서 foo 대역변수가 가리키는 장 
치구동프로그람의 서술자 foo _ dev _ t 에 있는 data 마당에 보관한다. 다음으로 intr 기발을 
설정 하고 wake _ up _ intermptible () 을 호출하여 foo -> wait 대 기 렬에 차단되 여 있는 프로 
쎄스를 깨운다. 

새치기처리기 에서 3개의 파라메터중 하나도 사용하지 않았는데 이것 이 일반적 인 경우 
이다. 

8. 블로크장치구동프로그람 

하드디스크와 같은 전형적 인 블로크장치는 접근시간이 아주 길다. 하드디스크조종기 
가 디스크표면우에 있는 자두를 자료가 있는 위치로 정확하게 옮겨야 하기때문에 보통 
각 연산을 완료할 때까지 수 ms 가 걸린다. 그러나 자두이동이 끝나면 자료전송은 초당 
수십 MB 속도로 진행된다. 
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하드디스크나 그와 류사한 장치는 충분한 성능을 얻기 위해 린접한 여러 바이트를 
한번에 전송한다. 앞으로는 디스크표면에 있는 탐색연산 한번으로 접근가능한 여러 바이 
트를 가리켜 《 바이 트가 린접 한다.》는 표현을 사용할것 이 다. 

Linux 블로크장치운전기의 구조는 아주 복잡하다. 여기서는 블로크장치운전기를 지 
원하려는 목적으로 핵심부에 포함된 모든 함수를 자세히 설명하지는 않지만 전체적인 쏘 
프트웨어구성 방식 을 보고 주요자료구조를 소개한다. 블로크장치 운전기 를 위 해 핵 심 부는 
다음과 갈은 특징을 지원한다. 

> VFS 를 통해 단일한 대면부제공 

> 디 스크장치 에 대 한 효률적 인 미 리 읽 기 (read-ahead) 구현 

> 자료에 대한 디스크캐쉬제공 

1) 블로크장치 구동프로그람관리 

블로크장치파일을 열려고 할 때 핵심부는 장치파일이 이미 열려있는지 확인해야 한다. 
파일 이 이미 열 려 있다면 핵 심부는 대 응하는 블로크장치 구동프로그람을 초기 화하면 안된다. 

그러나 이 문제는 보기처럼 쉽지 않다. 앞에서 장치파일에서 주번호가 같은 블로크 
장치 파일 이 같은 블로크장치 구동프로그람에 대 응한다고 설 명 하였 다. 그러 나 부번호 여 러 
개를 처 리 하는 블로크장치구동프로그람은 개 별적 인 블로크장치구동프로그람 여 러개 를 생 
각할수 있으므로 문제되지 않는다. 앞으로 여 기 에서 블로크장치 구동프로그람이 라는 용어 
는 주번호 하나와 부번호 하나로 지정한 하드웨어장치에 대한 입출력을 처리하는 핵심부 
계층을 의미한다. 

문제를 복잡하게 만드는 점은 VFS 가 주번호와 부번호는 같지만 경로명이 다른 블로 
크장치파일을 서로 다른 파일로 생각하지만 사실은 같은 블로크장치구동프로그람을 가리 
킨다는 사실이다. 따라서 핵심부는 색인마디캐쉬에서 블로크장치파일에 대한 객체가 존재 
하는지 검 사하는것 만으로는 블로크장치구동프로그람이 이 미 사용중인지 판단할수 없 다. 

어떤 블로크장치구동프로그람이 현재 사용중인지 추적하기 위해 핵심부는 주번호와 
부번 호 조합을 통해 참조하는 하쉬 표을 사용한다. 핵 심 부는 블로크장치 구동프로그람을 
사용할 때마다 주번호와 부번호 조합으로 나타내는 블로크장치구동프로그람이 이미 하쉬 
표에 보관되 여있는지 검 사한다. 표에 있 다면 블로크장치 구동프로그람은 이 미 사용중이 다. 
블로크장치파일의 주번호와 부번호에 대 해 하쉬함수를 사용하므로 주어 진 블로크장치파 
일을 통해 접근할 때 블로크장치구동프로그람이 활성화되였는지 아니면 주번호와 부번호 
가 갈은 다른 블로크장치파일을 통해 접근했는지 하는것은 상관없다. 주번호와 부번호 
조합에 대응하는 블로크장치구동프로그람을 찾을수 없으면 핵심부는 새로운 요소를 하쉬 
표에 추가한다. 하쉬 표배 렬 은 bdevhashtable 배 렬 에 보관되 는데 배 럴은 블로크장치서 술 
자의 목록 64 개 를 포함한다. 각 서술자는 block_device 자료구조이며 마당은 표 5-14 와 
갈다. 

(include\linux\fs. h) 
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표 5-14. _ 블로크장치시습자의 바당 


형 

마 당 

설 명 

struct list_head 

bd _ hash 

하쉬 표목록지 시 자 

atomic_t 

bd_conut 

블로크장치 서 술자의 사용계 수기 

struct inode * 

bdjnode 

블로크장치 구동프로그람의 주색 인마디 객 체 
를 가리키는 지적자 

Dev_t 

bd_dev 

블로크장치의 주번호와 부번호 

Int 

bd_openers 

블로크장치구동프로그람이 열 린 회수 

struct block _ device _ 
operations * 

bd_op 

블로크장치구동프로그람연산표의 지시자 

struct semaphore 

bd_sem 

블로크장치 구동프로그람을 보호하는 신호기 

struct list_head 

bdjnodes 

이 구동프로그람을 사용해서 연 블로크장치 

파일의 색인마디목록 


블로크장치 서 술자의 bdjnodes 마당은 색 인마디 의 2 중련결 원형 목록의 머 리 부(첫 번 
째 묶음요소)를 보관한다. 색인마디는 이 블로크장치구동프로그람을 사용해서 열린 블로 
크장치파일을 나타낸다. 색인마디객체의 i_devices 마당이 이 목록의 앞，뒤요소를 가리 
킨 다. 

각 블로크장치 서 술자는 bdjnode 마당에 구동프로그람의 특수블로크장치 색 인마디 객 
체의 주소를 보관한다. 이 색 인마디는 디스크파일에 대응하지 않고 bdev 특수파일체 계 에 
속한다. 블로크장치색 인마디는 같은 블로크장치 를 가리 키는 블로크장치 과일의 색 인마디 
객 체 가 공유하는 정 보의 《 원본》을 가지 고있다. 

2) 블로크장치구동프로그람의 초기화 

이제 블로크장치구동프로그람을 어떻게 초기화하는지 보자. 《 VFS 의 장치파일 처 
리》에서 블로크장치파일을 열 때 핵심부가 어떻게 파일객체의 메쏘드를 변경하는지 보 
았다. f _ op 마당을 def _ blk _ fops 변수의 주소로 설정한다. 이 표의 내용은 표 5-15 에 있 
다. dentry _ open () 함수에서 open 메쏘드가 정의되 여있는지 검사한다. open 은 블로크 
장치파일의 경우에 언제나 정의되여있으며 blkdev _ open () 함수를 실행한다. 

다음의 구조체는 블로크장치구동을 위한 기본함수들에 대한 대면이라고 볼수 있다. 

struct file_operations def _ blk_fops = { 

.open = blkdev_open, 

. release = blkdev_close, 

透資© 透資變逐©邊 561 













Linux 행심부해설서 


. 11 seek 
. read 
. write 
. aio_read 
. aio _ write 
. mmap 
. f sync 
. ioctl 
. ready 
. writev 
. sendfile 

}； 


= block _ llseek , 

= generic _ file _ read , 

= blkdev _ file _ write , 

= generic _ file _ aio _ read , 

= blkdev _ file _ aio _ write , 

= generic _ file _ mmap , 

= block _ fsync , 

= block _ ioctl , 

= generic _ file _ readv , 

= generic _ file _ write _ nolock , 
= generic _ file _ sendfile , 


■ 5-15. i 

향크상지 i ■의 가西■연산에쏘 s 

메쏘드 

블로크장치파일인 경우 해 당하는 함수 

open 

blkdev _ open () 

release 

blkdev _ close () 

11 seek 

block _ llseek () 

read 

generic _ file_read 0 

write 

generic _ file_write () 

mmap 

generic_f ile-mmap () 

fsync 

block _ fsync () 

ioctl 

blkdevjoctl () 


bd _ acquire () 함수는 다음연산을 실행한다. 

1. 색 인마디 객 체 에 대 응하는 블로크장치 파일 이 이 미 열 려 있는지 검 사한다. (열 린 경 
우 inode -> i _ bdev 마당은 블로크장치서술자를 가러 킨다.) 

파일 이 이 미 열 려 있 으면 블로크장치 서 술자의 사용계 수기 ( inode -> i _ bdev - 

> bd _ count ) 를 증가시키고 되돌이한다. 

2. inode -〉 rdev 에 보관된 주번호와 부번호를 사용하여 하쉬표에서 블로크장치구동 
프로그람을 탐색한다. 구동프로그람이 사용중이 아니여서 서술자를 찾지 못했으면 블로 
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크장치에 대해 새로운 block_device 새로운 색인마디객체를 할당하고 새로운 서술자를 
하쉬표에 삽입한다. 

3. 블로크장치구동프로그람서술자의 주소를 inode -> i _ bdev 에 보관한다. 

4. inode 를 구동프로그람서술자의 색 인마디목록에 삽입한다. 

다음으로 blkdev _ open () 이 do _ open () 을 호출하여 다음과 같은 단계를 실행 한다. 

1. 블로크장치구동프로그람서술자의 bd_op 마당이 NULL 이면 이 마당을 블로크장 
치파일의 주번호에 대응하는 blkdevs 표의 요소로 초기화한다. 

2. 블로크장치 구동프로그람서 술자의 open 메 쏘드 ( bd _ op -> open ) 가 정 의 되 여 있 다면 
이것을 실행한다. 

3. 블로크장치 구동프로그람서 술자의 bd_openers 계 수기 를 증가시 킨다. 

4. 블로크장치 색 인마디 객 체 ( bdjnode ) 의 i _ size , i _ blkbits 마당을 설정 한다. 

블로크장치 구동프로그람서 술자의 open 메 쏘드는 블로크장치 구동프로그람의 메 쏘드를 
더 설정할수 있으며 자원을 할당하고 블로크장치파일의 부번호에 따라 다른 처리를 할수 
있 다. 

장치구동프로그람초기 화함수는 반드시 장치파일 에 대 응하는 물리 적블로크장치 의 크 
기를 판단해야 한다. 이 길이를 blk _ size 대역배렬에 장치파일의 주번호와 부번호를 색 
인으로 하여 lkB 단위로 보관한다. 

3) 분구，블로크, 완충기 

블로크장치에 대한 자료전송연산은 《 분구 ( sector ) 》라는 련속되는 바이트그룹을 
단위로 수행한다. 대개 디스크장치의 분구크기는 512 B 이다. 좀더 큰 분구(1024, 
2048 B ) 를 사용하는 장치도 있다. 반드시 자료전송의 기본단위인 분구를 기억하여야 한 
다. 디스크장치가 여러 린접분구를 한번에 전송할수 있지만 한 분구보다 작은 크기는 전 
송할수 없다. 

핵심부는 각 하드웨어블로크장치의 분구크기를 hardsect _ size 라는 표에 보관한 
다. 八 include \ linux \ blkdev . h 의 request _ queue 구조체의 unsigned short 형 으로 선 
언되여있다.) 

표의 각 요소는 대응하는 블로크장치파일의 주，부번호를 통해 참조한다. 따라서 
hardsect _ size [3] [幻 는 / dev / hda 2, 즉 첫 번째 IDE 디 스크내 에 있는 두번째 구획의 
분구크기 를 나타낸다. (표 5-12 참고) hardsect _ size [ maj ] 이 NULL 인 경우 주번호 maj 
를 공유하는 모든 블로크장치는 표준분구크기인 512 B 를 가진다. 블로크장치구동프로그 
람은《블로크 ( block )》 라는 많은 련속바이트를 한번에 전송한다. 블로크를 분구와 혼 
돈하지 말아야 한다. 분구는 하드웨어장치에 대한 자료전송의 기본단위지만 블로크는 장 
치구동프로그람이 요청 하는 단일입 출력연산과 관련 한 련속바이 트그룹이 다. 

Linux 에서 블로크크기는 반드시 2의 제곱수여야 하고 최대크기는 폐지틀의 크기이 
다. 그리고 블로크에는 분구가 정수개 있기때문에 반드시 분구크기의 배수여야 한다. 따 
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라서 PC 구성 방식 에서 허용되는 블로크크기는 512，1024, 2048, 4096 B 이 다. 블로크장 
치구동프로그람 하나가 갈은 주번호를 공유하는 여 러 장치파일을 처 리해 야 하고 각 블로 
크장치파일 이 자기 의 블로크크기 를 가질수 있기때 문에 블로크장치구동프로그람은 여 러 
블로크크기에 동작할수 있어야 한다. 례를 들어 어떤 블로크장치구동프로그람이 Ext 2 
파일체 계 와 교환령역 을 담은 두 구획 이 있는 하드디스크를 처 리 해 야 한다고 하자. 이 경 
우 장치구동프로그람은 Ext 2 구획의 경우 1024 B , 교환구획의 경우 4096 B 를 사용한다. 

핵심부는 blksize _ size 라는 표에 블로크크기를 보관한다. 표의 각 요소는 대응하는 
블로크장치 파일의 주, 부번호로 참조한다. blksize _ size [ maj ] 이 NULL 이면 주번호 
maj 를 공유하는 모든 블로크장치의 블로크크기는 표준블로크크기인 1024 B 이 
다. ( blk _ size 를 blksize _ size 배 렬과 혼돈하지 말자. blksize _ size 는 블로크장치 자체 의 
크기가 아닌 블로크장치의 블로크크기를 보관한다.) 

각 블로크는 자기의 완충기 즉 핵심부가 블로크의 내용을 보관하기 위해 사용하는 
RAM 기억기령역을 요청한다. 장치구동프로그람이 디스크에서 블로크를 읽을 때 하드웨 
어장치에서 얻은 값을 사용하여 해 당 완충기를 채운다. 류사하게 장치구동프로그람이 디 
스크에 블로크를 기록할 때 완충기의 실제값을 사용하여 하드웨어장치의 련속바이트를 
갱 신한다. 완충기크기는 언제 나 대응하는 블로크크기와 일치한다. 

4) 완충기머리부 

완충기머리부는 각 완충기와 관련한 buffer _ head 형서술자이다. 여기에는 핵심부가 
완충기를 다루는데 필요한 모든 정보가 들어있다. 따라서 핵심부는 각 완충기를 처리하 
기 전에 완충기 머 리 부를 검 사한다. 

표 5-16 에 완충기머리부의 마당을 서술하였다. 각 완충기머리부의 b _ data 마당에는 
해당 완충기의 시작주소를 보관한다. 폐지틀 하나가 여러 완충기를 보관할수 있으므로 
b _ this_page 마당이 페지내 다음완충기의 완충기머리부를 가러 킨다. 이 마당은 전체 페 
지틀을 보관하고 검색하는데 사용된다. b _ blocknr 마당은 론리적블로크번호 즉 디스크 
구획내 블로크색 인을 보관한다. 


표 5-16. _ 완충기머리부 □당 


형 

마 당 

설 명 

struct buffer_head * 

b_next 

충돌하쉬목록의 다음항목 

unsigned long 

b_blocknr 

론리적블로크번호 

unsigned short 

b_size 

블로크크기 

kdev_t 

b_dev 

가상장치식별자 

atomic_t 

b_count 

블로크사용계수기 
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kdev_t 

b_rdev 

실제장치식별자 

unsigned long 

b_state 

완충기상태기발 

unsigned long 

b_f lushtime 

완충기 플래시 ( flash ) 시 간 

struct buffer_head * 

b _ next_free 

목록의 다음항목 

struct buffer _ head * 

b _ prev_free 

목록의 이전항목 

struct buffer _ head * 

b _ this_page 

폐지별 완충기목록 

struct buffer _ head * 

b_reqnext 

요청대기렬의 다음항목 

struct buffer_head ** 

b_pprev 

충돌하쉬목록의 이전항목 

char * 

b_data 

완충기를 가리키는 지시자 

struct page * 

b_page 

완충기를 보관하고있는 폐지의 

서 술자지 시 자 

void 。0 

b _ end_io 

입 출력 완료메 쏘드 

void 。 

b_private 

장치구동프로그람의 개 별 자료 

unsigned long 

b_rsector 

실 제장치안에 서 의 블로크번 호 

wait _ qucue _ head_t 

b_wait 

완충기 대기 렬 

struct inode * 

b_inode 

완충기가 속한 색인마디객체를 
가리키는 지시자 

struct list_head 

B _ inode_buffers 

색 인마디완충기목록의 지시 자 


b_state 마당은 다음기발을 보관한다. 

BH_Uptodate 

완충기에 유효한 자료가 있으면 1로 설정한다. buffer _ uptodate () 마크로가 이 기 
발값을 반환한다. 

BH_Dirty 

완충기가 불결하면 즉 블로크장치에 기록해야 하는 자료가 있으면 1로 설정한다. 
bu 打 er _ dirty () 마크로가 이 기발값을 반환한다. 

BH _ Lock 

완충기 에 잠그기 가 걸 려있으면 1로 설정 한다.디스크전송에 사용하는 완충기 에서 이 
런 경우가 발생한다. buffer _ locked () 마크로가 이 기발값을 반환한다. 
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BH_Req 

대 응하는 블로크를 요청 했 으며 유효한(최 신) 자료를 포함하고있 으면 1로 설 정한다. 
buffer _ req () 마크로가 이 기발값을 반환한다. 

BH_Mapped 

완충기 가 디스크에 배 치 되 여있으면 즉 대 응하는 완충기머 리부의 b _ dev , 
b _ blocknr 마당이 유효하면 1로 설정한다. buffer _ mapped () 마크로가 이 기발값을 반 
환한다. 

BH_New 

대응하는 파일블로크가 방금 할당되여 아직 한번도 접근되지 않았으면 1로 설정한 
다. buffer _ new () 마크로가 이 기발값을 반환한다. 

BH_Async 

end _ buffer _ io _ async () 가 처리 중인 완충기이 면 1로 설정 한다. buffer _ async () 
마크로가 이 기발값을 반환한다. 

BH _ Wait_IO 

기억기를 회수할 때 완충기청소를 연기하는데 사용한다. 

BH _ launder 

기 억 기를 회수할 때 완충기 가 청 소되 는중일 때 설정 한다. 

BH _ JBD 

기 록형 파일 체 계 가 사용하는 완충기일 때 설 정 한다. 

t 匕 dev 마당이 완충기에 보관된 블로크를 포함하는 가상 ( virtual ) 장치를 나타내는 
반면에 b _ rdev 마당은 실제 ( real ) 장치를 나타낸다. 간단한 일반하드디스크의 경우 이 구 
분이 의미가 없지만 동시에 동작하는 디스크 여러개로 이루어진 RAID (Redundant 
Array of Independent Disks ) 기억기를 나타내기 위해 도입하였다. 안전성과 효률성 
을 높이기 위해 RAID 배렬에 보관한 파일은 여 러 디스크에 나누어 보관하지만 응용프로 
그람은 론리디스크 하나로 생각한다. 따라서 b_blocknr 마당은 론리적인 블로크번호를 
나타내고 b _ rdev 마당은 특수한 디스크장치를 나타내며 b _ rsector 마당은 분구번호를 나 
타낸다. 

5) 블로크장치 구동프로그람구성 방식 의 개 요 

블로크장치구동프로그람은 한번에 한 블로크를 전송할수 있지만 핵심부는 디스크에 
요청 한 각 블로크에 대 해 매 번 별도의 입 출력연산을 수행 하지 않는다. 디 스크표면 에 서 
블로크의 물리적 인 위 치를 찾는 시 간이 매우 오래 걸 리 기 때문에 매번 별도의 입 출력 연산 
을 수행하면 디스크성능이 매우 나빠지기때문이다. 대신 핵심부는 될수 있으면 여러 블 
로크를 한번에 처리하여 자두의 평균이동회수를 줄인다. 

프로쎄스 VFS 계층 또는 다른 핵심부구성요소가 디스크블로크를 읽거나 쓰러고 하면 
실제 로는《 블로크장치요청》을 생성 한다. 이것은 요청된 블로크와 블로크에 실행할 연 
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산(읽기 또는 쓰기)을 나타낸다. 그렇지만 핵심부는 요청이 들어오는 즉시 처리하지 않 
는다. 이 입출력연산은 단지 실행 예정목록에 추가되 고 나중에 실행한다. 이 렇게 하는것 
이 과제를 뒤 로 연기하는것처 럼 보이지만 블로크장치성능을 향상하는 핵 심적 인 기구이 다. 
핵 심 부가 새 로운 블로크장치자료전송을 요청받으면 대 기 중인 이 전의 요청 을 약간 확대하 
여 이 요청을 만족시 킬수 있는지 검사한다. 즉 탐색 ( seek ) 연산을 하지 않고도 새 로운 
요청을 만족시킬수 있는지 검사한다. 디스크를 순차적으로 접근하는 경우가 많기때문에 
이 간단한 기구는 매우 효률적 이 다. 

요청을 연기하는것은 블로크장치처리를 매우 복잡하게 한다. 례를 들어 어떤 프로쎄 
스가 정규파일 하나를 열고 이어서 파일체계구동프로그람이 파일에 대응하는 색인마디를 
디스크에서 읽으러 한다고 가정 하자. 블로크장치 구동프로그람은 요청을 대기 렬에 넣고 
색 인마디를 가지고있는 블로크가 전송될 때까지 프로쎄스를 보류한다. 그러나 블로크장 
치구동프로그람자체는 차단상태가 될수 없다. 그렇게 되면 같은 디스크에 접근하려는 다 
른 모든 프로쎄스도 차단으로 되기때문이 다. 

블로크장치구동프로그람의 보류를 막기 위해 각 입출력요청을 비동기적으로 처리한 
다. 따라서 자료전송을 완료할 때까지 대기상태가 될수 있는 핵심부조종경로는 없다. 특 
히 블로크장치구동프로그람은 새 치기구동방식 이 기때 문에 《 고준위구동프로그람》은 새 
토운 블로크장치요청을 생성하거나 기존의 블로크장치요청을 확대한 다음 즉시 실행을 
완료할수 있다. 나중에 활성화되는 《 저준위구동프로그람》은 소위 《 전략루린 
(strategy routine ) 》을 호출한다. 이 루린은 대기렬에서 요청을 받아 디스크조종기에 
적 절한 명 령 을 지 시 하여 요청 을 처 리 한다. 입 출력 연산을 완료하면 디 스크조종기 는 새 치 
기를 발생시키고 해당 운전기는 전략루린을 다시 실행한다. 필요하다면 렬에 있는 다른 
요청 도 처 리 한다. 각 블로크장치 구동프로그람은 자기 의 《 요청 대 기 렬 (request 
queue ) 》이 있다. 물리적블로크장치마다 요청대기렬이 하나씩 있어 야 하는데 이렇게 
함으로써 요청순서를 정렬하여 디스크성능을 높일수 있다. 전략루린은 순차적으로 렬을 
람색 하여 자두이동을 최소로 하여 모든 요청을 처 리한다. 

o 요청서술자 

요청서술자 (request descriptor ) 는 각 블로크장치요청을 표현한다. 요청서술자는 
표 5-17 과 같은 request 자료구조에 보관한다. 자료전송방향은 cmd 마당에 보관된다. 
이 마당의 값은 READ (블로크장치에서 RAM 으로) 또는 WRITE ( RAM 에서 블로크장 
치로)이 다. 요청상태를 지정하기 위해 rq _ status 마당을 사용한다. 

대부분의 블로크장치에서 RQ_INACTIVE (사용하지 않는 요청서술자) 또는 
RQ _ ACTIVE (저준위장치구동프로그람에 의해 이미 처 리되 였거 나 처 리예정 인 유효한 
요청) 이다. 
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표 5-17. _ aa 서술자□[당 


형 

마 당 

설 명 

struct list-head 

queue 

요청대기렬목록의 지시자 

int 

elevator_sequ 

ence 

승강기 알고리듬을 위한 요청의 나이 
( age ) 3 

volatile int 

rq_staus 

요청 상태 

kdev_t 

rq_dev 

장치식별자 

int 

cmd 

요청한 연산 

int 

errors 

성공 또는 실패코드 

unsigned long 

sector 

(가상) 블로크장치의 첫번째 분구번호 

unsigned long 

nr_sector 

(가상) 블로크장치에 요청한 분구수 

unsigned long 

hard_sector 

(실제) 블로크장치의 첫번째 분구번호 

unsigned long 

hard _ nr_secto 

rs 

(실제) 블로크장치 에 요청 한 분구수 

unsigned int 

nr_segments 

(가상) 블로크장치에 요청한 토막수 

unsigned int 

nr _ hw_segme 

nts 

(실제) 블로크장치 에 요청 한 토막수 

unsigned long 

current _ nr_se 

ctors 

현재 전송중인 블로크분구수 

void * 

special 

SCSI 장치의 구동프로그람에서 사용함 

char * 

buffer 

입출력전송을 위한 기억기령역 

struct completion * 

waiting 

요청에 관련된 대기렬 

struct buffer _ head * 

bh 

요청의 첫번째 완충기서술자 

struct buffer _ head * 

bhtail 

요청의 마지막 완충기서술자 

request _ queue _ t * 

Q 

요청 대 기 렬 서 술자지 시 자 


요청 은 동일 한 장치 의 린접하는 여 러 블로크를 포함할수 있 다. rq_dev 마당은 블로 
크장치를 나타내고 sector 마당은 요청의 첫번째 블로크에 있는 첫번째 분구번호를 나타 
낸다. nr_sector 는 요청에 있지만 아직 처리 하지 않은 분구의 수를 나타낸다. 
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current_nr_sector 는 요청의 첫번째 블로크에 있는 분구수를 나타낸다. 

뒤 에 서 보지 만 sector, nr_sector, current_nr_sector 마당은 요청 을 처 리 하는 동 
안 동적으로 바뀔수 있다. nr_segments 마당은 요청의 토막수를 나타낸다. 요청한 모든 
블로크는 블로크장치에서는 반드시 린접해야 하지만 완충기는 RAM 에서 반드시 련속일 
필요는 없다. 요청에서 린접하고 대응하는 완충기들도 RAM 에서 련속인 블로크들을 
《 토막 (segment) 》라고 부른다. 저 준위 장치 구동프로그람은 한 토막의 모든 블로크를 연 
산 한번으로 전송하도록 DMA 조종기를 프로그람작성할수 있다. 

hard_sector, hard-nr_sectors , nr_hw_segments 마당은 보통 각각 sector, 
nr_sectors, nr_segments 와 값이 같다. 그러나 요청이 여러 물리적 블로크장치를 한번 
에 처 리하는 구동프로그람을 가리키는 경우 값이 서로 다르다. 이와 같은 구동프로그람 
의 전형적 인 례는 LVM (론리볼륨관리자)이 다. 

LVM 은 여러 디스크를 관리하며 여러 디스크구획을 가상디스크구획 하나처럼 다룬 
다. 이 경우 liard_ 가 붙은 마당은 실제물리적블로크장치를 가리키고 붙지 않은 마당은 
가상장치 를 가리 키 므로 서 로 다르다. 또 다른 례 는 쏘프트웨에^ AID 이 다. 이 구동프로 
그람은 자료를 여 러 디스크에 복제 하여 안정성을 높인다. 

요청내 모든 블로크의 완충기머 리부는 단순련결목록을 구성한다. 각 완충기머리부의 
b_reqnext 마당은 목록의 다음요소를 가리키고 요청서술자의 bh 와 bhtail 마당은 각각 
목록의 처음과 마지막요소를 가리킨다. 요청서술자의 buffer 마당은 실제자료전송에 사 
용하는 기억기령역을 가리킨다. 

블로크 하나를 요청하는 경우 buffer 는 완충기머 리부에 있는 b_data 마당의 복사본 
일뿐이 다. 그러 나 요청 이 여 러 블로크를 포함한 상태 이 고 이 것 들의 완충기 가 기 억 기 에 서 
련속하지 않으면 완충기는 그림 5-8 처럼 완충기머리부의 b_reqnext 마당을 통해 련결된 
다. 읽기의 경우 저준위장치구동프로그람은 buffer 에 큰 기억기령역을 할당하고 요청의 
모든 분구를 한번에 읽은 다음 자료를 여러 완충기에 복사하는 방법을 선택할수 있다. 
쓰기의 경우 저준위장치구동프로그람은 련속하지 않는 많은 완충기로부터 자료를 
bu 打 er 가 가리키는 단일기억기령역에 복사한 다음 한번에 모든 자료를 전송할수 있다. 

그림 5-8 은 블로크 세개를 포함하는 요청서술자를 보여준다. 두 블로크완충기는 
RAM 에서 련속이지만 세번째 완충기는 떨어져있다. 대응하는 완충기머리부는 블로크장 
치에서 론리적블로크를 나타낸다. 블로크는 반드시 련속해야 한다. 각 론리적블로크에는 
분구가 두개 있다. 요청서술자의 sector 마당은 디스크에 있는 첫번째 블로크의 첫번째 
분구를 가리키 고 각 완충기머 리부의 b_reqnext 마당은 다음완충기머리부를 가리킨다. 

초기 화과정 에 서 각 블로크장치 구동프로그람은 일 반적 으로 자기 의 처 리 할 입 출력 요청 
을 위해 고정된 수의 요청서술자를 정적으로 할당한다. blk_init_queue 0 함수는 여유 
요청서술자가 들어있는 크기 가 같은 목록 두개를 설정 한다. 하나는 READ 연산용이 고 
하나는 WRITE 연산용이다. RAM 이 32MB 를 넘으면 이 목록의 크기는 64 로 설정되고 
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32 MB 이하이면 32로 설정된다. 모든 요청서술자의 초기상태는 RQ_INACTIVE 이다. 

매우 심한 작업부하로 디스크동작이 많을 경우 고정된 수의 요청서술자가 모자랄수 
도 있다. 자유서술자(打 ee descriptor ) 가 부족하면 프로쎄스는 진행중인 자료전송이 끝 
날 때 까지 기 다려야 한다. 


RAM 에 있는완충기 





-► bblocknr 


그림 5-8. 요청서술자와 그의 완충기와 분구 

따라서 자유 request 요소를 기다리는 프로쎄스를 대기시키기 위해 대기렬를 사용한 
다. get _ request _ wait () 은 자유 요청서술자를 얻으려 시도하고 자유서술자가 없는 경 
우 현재프로쎄스를 대기렬에 넣어 sleep 상태로 만든다. 

get _ request () 도 비슷하지만 자유요청서술자가 없는 경우 단순히 NULL 을 반환 
한다. 핵심부부하를 줄이기 위해 batch_requests 라는 림계값변수 (RAM 크기에 따라 32 
또는 16으로 설정된다. )를 사용한다. 요청서술자를 해제할 때 빈 서 술자수가 
batch_requests 이상 되지 않으면 자유 요청서술자를 기 다리는 프로쎄스를 깨우지 않는 
다. 반대로 자유요청서술자를 찾을 때 get _ request _ wait () 은 자유서술자가 
batch_requests 보다 적으면 CPU 를 풀어준다. 
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o 요청대기렬서술자 

요청 대 기 렬서 술자를 사용하여 요청대 기 렬를 나타낸다. 각 서 술자는 request . 
queue _ t 자료구조이고 이 자료구조의 마당은 표 5_18과 같다. 


法 5-18. S ■■기렬사_；四 □[당 


형 

마 당 

설 명 

struct reqrest_list [] 

rq 

요청의 READ , WRITE 자유목록 

strct list_head 

queue_head 

대기중인 요청의 목록 

elevator_t 

elevator 

승강기알고리듬함수 

request _ fn _ proc * 

request_fn 

구동프로그람의 전략루린 

merge _ request _ fn * 

back _ merge_fn 

블로크를 요청 에 덧붙이는 함수 

merge _ repuest _ fn * 

f ront _ merge_fn 

블로크를 요청의 앞에 삽입하는 함수 

merge _ requests _ fn * 

merge _ requests_fn 

요청 을 확대하여 린접 한것 과 합치 는 함수 

make _ request _ fn * 

make _ repuest_fn 

구동프로그람에 요청을 전달하는 함수 
(보통 적절한 대기렬에 요청을 삽입한 
다.) 

Plug _ device_fn * 

Plug _ device_fn 

구동프로그람 련결 ( plug ) 하는 함수 

void * 

queuedata 

장치구동프로그람의 내부자료 

struct tq_struct 

Plug_tq 

련결 ( plug ) 기법을 위한 작업대기렬항목 

char 

plugged 

구동프로그람이 련결되였는지 나타내는 
기발 

char 

head_active 

구동프로그람이 련결되지 않았을 때 대기 
렬의 첫번째 요청 이 활성 화되 여있는지 나 
타내는 기발 

spinlock_t 

qucue_lock 

요청 대 기 렬 잠그기 

wait _ queue _ head_t 

wait _ for_request 

요청서술자가 없을 때 기다리는 대기렬 


핵심부가 장치구동프로그람을 초기화할 때 구동프로그람이 처 리할 각 요청대기렬에 
대 해 요청 대 기 렬 서 술자를 생 성 하고 초기 화한다. 

요청대기렬은 그 요소가 요청서술자(즉 요청자료구조)인 2중련결목록이다. 각 요청대 
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기렬서술자의 queue_head 마당은 목록의 머리부(첫번째 묶음요소)를 보관하며 요청서술 
자의 queue 마당에 있는 지적자는 요청을 목록에 있는 이전 다음요소와 련결한다. 렬목록 
에 있는 요소의 순서는 블로크장치구동프로그람에 따라 다르다. Linux 핵심부는 두 종류 
의 정의된 요소순서를 제공한다. 이에 대해서는《요청대기렬확장》에서 설명한다. 

O 블로크장치 저준위구동프로그람서술자 

각 블로크장치구동프로그람은 요청대기렬을 하나 이상 정의할수 있다. 각 구동프로 
그람의 요청 대 기 렬를 관리 하기 위 해 저 준위 구동프로그람서 술자를 사용한다. 이 서 술자는 
blk _ dev_struct 자료구조이며 마당은 표 5-19 와 같다. 모든 블로크장치의 서술자는 
blk_dev 표에 보관하고 블로크장치의 주번호를 사용하여 참조한다. 


표 5-19. 블로크장치 구동유무그람서술자의 미당 


형 

마 당 

설 명 

request _ queue_t 

request_queue 

공통요청대기 렬 (장치 별 대기 렬을 정의 하지 
않은 구동프로그람에 서 사용) 

queue proc * 

queue 

장치별 대기렬의 주소를 반환하는 메쏘드 

void * 

data 

queue 가 사용하는 자료(례를 들면 부번호) 


블로크장치구동프로그람이 모든 물리 적블로크장치 에 대 해 요청대 기렬를 하나만 가지 
고있다면 해당 렬의 주소를 request_queue 마당에 보관한다. 블로크장치구동프로그람이 
여러 렬을 관리한다면 queue 마당이 독자적인 구동프로그람 메쏘드의 주소를 가러킨다. 
이 메 쏘드는 블로크장치 파일의 식 별 자를 파라메터 로 받아서 data 마당의 값에 따라 렬 을 
선택하여 적절한 요청대기렬의 주소를 반환한다. 

9. Il _ rw _ block () 함수 

ll _ rw _ block () 함수는 블로크장치요청을 생성한다. 이 함수는 블로크 하나이상의 
입출력자료전송을 시작하도록 ( trigger ) 핵심부의 여러 곳에서 호출된다. 이 함수는 다음 
과 갈은 파라메 터 를 받는다. 

연산류형인 rw . READ , WRITE , READA 중 하나를 선택할수 있다. 마지 막연산류 
형은 다른 류형과 달리 사용가능한 요청서술자가 없을 때 차단되지 않고 즉시 완료한다. 

전송할 블로크수인 nr 블로크(모두 블로크크기가 같고 같은 블로크장치를 나타내야 
한다.)를 나타내는 완충기머리부를 가리키는 지적자 nr 개를 포함하는 배렬인 bhs 완충 
기머리부는 각각이 블로크번호，블로크크기, 가상장치식별자 등을 나타내도록 미리 초기 
화된다.(앞에서 본《완충기머 리부》참고) 

함수는 다음과 갈은 연산을 수행한다. 

1. bhs 배럴의 각 완충기머리부에 대해 블로크크기 b_size 가 가상장치 b_dev 의 
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블로크크기와 일치하는지 검사한다. 

2. 연산이 WRITE 인 경우 블로크장치가 읽기전용이 아닌지 검사한다. 

3. bhs 배 렬의 각 완충기머 리부에 대 해 다음과 갈은것을 실행한다. 

a . 완충기머리부의 BH_Lock 기발을 설정한다. 다른 핵심부스레드에 의해 이미 설 
정되여있으면 이 완충기를 건너된다. 

b . 완충기머 리부의 b_count 마당을 증가시 킨다. 

c . 완충기 머리부의 b _ end_io 마당을 end _ buffer _ io_sync () 즉 자료전송이 완료되였 
을 때 완충기머 리부를 갱신하는 함수로 설정한다. (뒤 에 나오는《저준위요청처 리》참고) 

d . 블로크에 쓰기를 해야 하면 완충기머리부의 BH_Dirsy 기발을 다음중 한가지 방 
법으로 검사한다. 

- BH_Dirty 가 설정되 여있지 않으면 b _ end_io 메쏘드 ( end _ buffer _ io _ sync () 함 
수)를 실행하고 이 블로크를 쓸 필요가 없으므로 다음완충기에 대해 계속한다. 

- BH_Dirty 가 설정되 여 있으면 이 기 발을 해제 하고 이 완충기머 리부를 잠그기 가 
걸 려있는 완충기머 리부의 목록에 로 옳긴다. 

일반적으로 ll _ rw _ block () 를 호출하는 쪽에서 쓰려고 하는 각 블로크에 대해 
BH_Dirty 기발을 설정해야 한다. 

따라서 기 발이 설정되 여있지 않는 경우 ll _ rw _ block () 은 블로크가 이미 쓰기 연산 
중이라고 판단하고 아무일도 하지 않는다. 

e . 블로크에서 읽기를 해야 하면 완충기머리부의 BH_Uptodate 기발을 검사한 

다. 기 발이 설정되 여있으면 b _ end_io 메쏘드 ( end _ buffer _ io _ sync () 함수)를 실 

행하고 다음완충기에 대해 계속한다. 완충기가 유효한(최신)자료를 담고있으면 핵심부는 
디스크에서 블로크를 절대로 다시 읽지 않는다. 

f . Submir _ bli () 함수를 호출한다. 이 함수는 다음과 같이 수행한다. 

- 디스크에서 첫번째 블로크의 분구수를 계산한다. 즉 b_blocknr (론리적블로크번 
호)와 b_size (블로크크기)에서 b_rsector 마당값을 계산한다. 이 마당은 블로크장치구동 
프로그람이 LVM (론리볼륨관리자)이거나 RAID 디스크를 처리하면 변경될수 있다. 

- b_state 의 BH_Req 기 발을 설정 하여 요청 중인 블로크임 을 표시한다. 

- b_dev 마당의 b_rdev 마당을 초기화한다. 이 마당은 블로크장치구동프로그람이 
LVM 나 RAID 디스크를 처 리하면 변경될수 있다. 

4. generic _ make _ request () 를 호출한다. 

generic _ make _ request () 함수는 요청을 저준위구동프로그람에 전달한다. 함수는 
완충기 머 리 부 bh 와 연산류형 rw ( READ , WRITE , READA ) 를 파라메 터 로 받아서 다 
음연산을 수행한다. 

a . bh -> b_rsector 가 블로크장치의 분구수를 넘지 않는지 검사한다. 넘는다면 핵심 
부오유통보를 출력 하고 완충기 머 리 부의 b _ end_io 메 쏘드를 호출하고 완료한다. 
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b. bh->b_rdev 에서 블로크장치구동프로그람의 주번호 maj 를 추출한다. 

c. 저 준위 구동프로그람서 술자 blk_dev[maj] 에서 장치 구동프로그람요청 대 기 렬의 서 
술자를 엄는다. 

이 를 위 해 blk_dev [maj]. queue 메 쏘드가 정 의 되 여 있 으면 이 것 을 호출한다. 그렇 
지 않으면 blk_dev[maj]. request_queue 마당을 읽 는다. (이 경 우 구동프로그람은 단 
일렬를 사용한다.) 

d. 앞에서 찾은 요청대기렬서술자의 make_request_fn 메 쏘드를 호출한다. 

대 부분의 경 우 블로크장치 구동프로그람에 서 make_request_fn 메 쏘드는 

_make_request() 함수호출로 구현한다. 이 함수는 렬서술자완충기머리부 bh 연산류형 
rw 를 파라메터 로 받아서 다음연산을 수행 한다. 

a. 연산의 종류가 READA 인지 검사한다. READA 이면 rw_ahead 기발을 1 로 설 
정 하고 rw 를 READ 로 설정한다. 

b. create_bounce() 함수를 호출한다. 이 함수는 bh->b_page->flags 의 
PG_highmem 기발값을 읽어 bh->b_data 완충기가 웃자리기억기에 있는지 여부를 판단 
한다. 완충기 가 웃자리기 억기 에 있으면 저 준위구동프로그람이 완충기를 처 리 하지 못할수 
도 있다. 따라서 create_bounce() 가 림시로 아래자리기억기에 새로운 완충기를 할당하 
여 새로운 완충기머리부가 이 완충기를 가리키도록 한다. 새로운 완충기머리부는 bh 와 
거의 동일하지만 b_data 마당은 새로운 완충기를 가리키고 b_private 마당은 원래완충기 
머 리부 bh 를 가리키며 b_end_io 메쏘드는 입출력 연산이 완료하면 아래자리기 억기 완충기 
를 해제하는 독자적인 메쏘드를 가리킨다. rw 가 WRITE 면 create_bounce() 가 아래 
자리 기 억 기 완충기 를 웃자리 기 억 기 완충기 의 내 용으로 채 우고 READ 면 b_end_io 메 쏘드 
가 아래 자리 기 억기 완충기 를 웃자리기 억기 완충기 로 복사한다. 

c. 요청대기렬이 비였는지 검사한다. 

- 요청대기렬 이 비 여있다면 새 로운 요청서 술자를 삽입 하고 저준위구동프로그람의 
전 략루린을 나중에 활성 화하도록 순서 짜기 한다. 

- 요청대기 렬 이 비 여있지 않으면 새로운 요청서술자를 삽입 하고 이미 렬에 들어있 
는 다른 요청과 새로운 요청을 합칠수 있는지 시도해본다. 인차 고찰하겠지만 이 경우 
전략루린의 활성화를 순서짜기할 필요가 없다. 

이제 이 두 경우를 더 자세히 보자. 

1) 전략루틴의 활성화순서짜기 

앞에서 본바와 같이 전략루린의 활성화를 연기하면 련속되는 블로크에 대한 요청을 
하나로 묶을수 있는 가능성을 높이는데 도움이 된다. 활성화를 연기하기 위해 장치접속 
(plugging) 과 차단해제 (unpluggjng) 이 라는 기법을 사용한다. 블로크장치구동프로그 
람이 접속되여있으면 구동프로그람의 렬에 처리할 요청 이 있더 라도 전략루린이 활성화되 
지 않는다. 
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실제 장치의 요청대기 렬 이 비 여있고 장치 가 이 직 접속되지 않았다면 
_ make_request() 가 장치 접속을 수행 한다. 장치 접속을 수행 하는 plug_device_fn 메 쏘드 
는 보통 generic_plug_device() 함수를 통해 구현한다. 이 함수는 요청대기렬서술자의 
plugged 마당을 1로 설정하고 plug_tq 과제렬요소(요청대기렬서술자에 정적으로 포함되여 
있음)를 tq_disk 과제렬에 삽입하여 장치의 전략루린이 나중에 활성화되도록 한다. 

이어서 _ make_request() 함수는 get_request 0함수를 호출하여 새로운 요청서술 
자를 할당한다. 사용할수 있는 요청서술자가 없다면 함수는 rw_ahead 기발의 값을 검사 
한다. 이 기 발이 설정되 여있으면 함수가 상대적으로 중요하지 않은 미 리읽기 연산을 수행 
하고있는것 이므로 입출력 자료전송을 실행하지 않고 b_end_io 메쏘드를 호출한 다음 완료 
한다. 그렇지 않으면 함수는 get_request_wait() 함수를 호출하여 자유요청서술자가 생 
길 때까지 잠든다. 

다음으로 _ make_request () 는 새로운 요청서술자를 완충기머리부에서 읽은 정보로 
초기화한 다음 적절한 실제장치의 요청대기렬에 삽입하고 완료한다. 

실제 입출력자료전송은 어떻게 시작하는가? 핵심부는 tq_disk 과제렬 이 요소를 하나 
라도 포함하고있는지 주기적으로 검사한다. 이 검사는 kswapd 같은 핵심부스레드에서 
이 루어지 거 나 핵 심 부가 완충기 나 요청서 술자와 같은 블로크장치구동프로그람과 관련한 
자원을 기 다려야 할 때 이루어 진다. 핵 심부는 tq_disk 를 검사하는 동안 렬 에서 어떤 요 
소든 제 거 하고 대 응하는 함수를 호출한다. 

보통 plug_tq 과제렬에 보관된 함수는 generic_unplug_device() 함수를 가리킨다. 
이 함수는 요청 대기 렬서술자의 plugged 마당을 0으로 하고 request_fn 메 쏘드를 호출하 
여 저준위구동프로그람의 전략루린을 호출한다. 이 과제를 《 장치를 차단해제 
(unplugging) 한다.》고 한다. 결과적으로 구동프로그람의 렬에 포함된 요청이 처리 
되여 대응하는 입출력자료전송이 이루어진다. 

2) 요청대기렬확장 

요청대기렬이 비여있지 않다면 핵심부가 렬에 첫번째 요청을 삽입했을 때 구동프로 
그람이 이 미 접 속된것 이 다. 따라서 전 략루린을 다시 활성 화하도록 순서 짜기할 필요가 없 
다. 저준위구동프로그람은 이미 접속해제되 여있거나 곧 접속해제될것 이 다. 

_make_request( ) 가 요청대기렬이 비 여있지 않음을 알게 되 였을 때 저준위구동 
프로그람은 렬의 요청 을 처 리 하고있을수도 있다. 그럼 에 도 불구하고 저 준위 구동프로그람 
은 일 반적 으로 처리 하기 전 에 이 미 렬 에 서 요청 을 제 거 하기 때문에 함수는 안전 하게 렬 을 
수정 할수 있다. 그렇지만 특수한 경우 즉 요청 대 기 렬의 head_active 마당이 설정되 여있 
으면 함수는 렬의 첫번째 요청을 건드러지 않는다. 이 기발은 저준위구동프로그람이 언 
제나 렬의 첫번째 요청을 처리하고 입출력자료전송이 완료할 때까지 요청을 렬에서 제거 
하지 않는 방책을 사용하는 경우에 설정된다. 

_make_request() 함수는 새로운 요소를 렬에 추가하거나 이미 존재 하는 요청과 병 
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합한다. 이 미 존재 하는 요청 과 합치는 경 우를 《 블로크클라스터 링 (block 
clustering ) ) 이 라고 부른다. 

블로크들라스터링 을 위 해서는 다음조건을 모두 만족해 야 한다. 

- 삽입 될 블로크는 요청안에 있는 다른 블로크와 같은 블로크장치 에 속해 야 하며 
이것들과 련속적 이여야 한다. 즉 요청의 처음블로크 바로 앞에 오거 나 요청의 마지막블 
로크 바로 뒤 에 와야 한다. 

- 요청 에 포함된 블로크는 삽입 될 블로크와 같은 입 출력연산류형 (READ 또는 
WRITE ) 이 여 야 한다. 

- 확장된 요청은 허용된 최대분구수를 넘지 말아야 한다. 이 값은 max _ sectors 표 
에 보관되 여있고 블로크장치의 주번호와 부번호로 참조한다. 기 본값은 255분구이다. 

- 확장된 요청은 허 용된 최대 토막수를 넘지 말아야 한다. (《요청서술자》참고) 이 
값은 보통 128이 다. 

- 요청의 완료를 기다리는 프로쎄스가 없어야 한다. 즉 요청서술자의 waiting 마당 
이 NULL 이여야 한다. 

_ make _ request () 함수는 요청한 블로크를 어떻게 렬에 삽입할지 결정하기 위해 전 
통적으로《승강기 ( elevator ) 알고리듬》이 라는 기 법을 사용한다. 승강기 알고리듬은 기 
본적으로 렬안에서 요소의 순서를 정의한다. 보통 저준위구동프로그람이 요청을 처리할 
때도 이 순서를 따른다. 

각 블로크장치구동프로그람이 독자적 인 승강기알고리 듬을 정 의할수도 있지 만 대 부분 
의 블로크장치구동프로그람은 다음중 하나를 사용한다. 

o ELEVATOR _ NOOP 알고리듬 

새로운 요청서술자를 렬의 끝에 삽입한다. 따라서 오래된 요청이 새로운 요청보다 우 
선시한다. 블로크들라스터링은 요청을 확대할수 있지만 요청을 더 최신으로 만들수는 없다. 

이 알고리 듬은 여 러 요청사이의 공정한 처 리시간을 제공한다. 

o ELEVATOR_LINUS 알고리듬 

렬에 있는 요소의 순서는 대응하는 분구의 블로크장치 에서의 위 치를 따르기 쉽다. 
이 알고리듬은 물리적장치에서 탐색 ( seek ) 연산의 수와 범위를 최소화하려고 한다. 그렇 
지만 알고리듬은 반드시 렬의 마지막위치에 있는 요청이 오래동안 처리되지 않고 남아 
있는것을 방지 하기 위 해 《 로화 ( ageing ) 기법》도 사용해 야 한다. 이 기 법은 대기 렬에 
오래 있은것일수록 우선순위를 높이는 방법 이다. 블로크를 포함할수 있는 요청을 람색할 
때 알고리듬은 렬의 바닥부터 시작하며 아주 오래된 요청을 발견하면 즉시 탐색을 중단 
한다. 

승강기알고리듬은 요청대기렬서술자의 elevator 마당에 포함된 다음 세개의 메쏘드 
를 통해 구현한다. 
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elevator_merge_fn 

렬를 탐색 하여 블로크클라스터 링의 후보가 될만한 요청을 찾는다. 블로크클라스터 링 
이 가능하지 않으면 새로운 요청을 삽입할 위치를 반환한다. 콜라스터링이 가능하면 새 
로운 요청의 블로크를 포함하기 위 해 확대해 야 하는 기존의 요청을 반환한다. 

elvator_merge_cleanup_fn 

블로크클라스터링을 성공하면 호출한다. 렬에서 콜라스터 링 으로 확장된 요청 다음에 
있는 모든 요청을 로화해야 한다 .( ELEVATOR_NOOP 알고리듬에서 이 메쏘드는 아 
무일도 하지 말아야 한다.) 

elevator_merge_req_fn 

핵심부가 렬에 있는 두 요청을 합칠 때 호출한다. 새로 확장된 요청의 나이 (age) 를 할 
당해 야 한다. (ELEVATOR_NOOP 알고리듬에서 이 메쏘드는 아무 일도 하지 않는다.) 

_ make_request () 함수는 존재 하는 요청을 다른 요청의 앞이나 뒤에 추가하기 위 해 
요청 대기 렬서술자의 back_merge_fn 이나 front_merge_fn 메 쏘드를 사용한다. 블 로크들 
라스터 링 연산이 성 공적 으로 끝나면 _ make_request() 는 요청 대 기 렬서 술자의 
merge_request_fn 메 쏘드를 호출하여 확장된 요청을 렬의 이전 또는 다음요청과 합칠 
수 있는지 검사한다. 

10. 저준위요청처리 

Linux 의 블로크장치처리과정의 가장 저준위에 도달하였다. 이 수준을 전략루린이 
구현하며 이 루린은 렬에 모인 요청을 만족시키기 위해 물리적블로크장치와 호상작용한 
다. 앞에서 언급한것처럼 일반적으로 새로운 요청이 빈 요청대기렬에 삽입된 다음 전략 
루린을 시작한다. 한번 활성화되면 저준위블로크장치구동프로그람은 렬에 있는 모든 요 
청을 처리하며 렬이 비면 완료한다. 

전략루린은 간단히 다음과 같이 구현할수도 있다. 렬의 각요소에 대해 그 요청을 처 
리 하기 위 해 블로크장치 구동프로그람과 호상작용하고 자료전송을 완료할 때 까지 기 다린 
다. 다음으로 처 리 한 요청 을 렬 에 서 제 거 하고 다음요청 항목을 처 리 한다. 

그러 나 이 와 같은 구현은 매 우 비효률적 이 다. DMA 를 사용하여 자료를 전송하더 라 
도 전략루린은 입출력을 완료할 때까지 기 다리면서 자기를 보류해 야 한다. 따라서 다른 
사용자프로쎄 스에 는 손해 가 된 다. (전 략루린은 입 출력 연산을 요청 한 프로쎄 스에 서 반드시 
처리할 필요가 없으며 앞으로 임의의 시점에서 실행할수 있다. tq_disk 과제렬이 전략 
루린을 활성 화하기 때 문이 다. ) 

따라서 많은 저준위 블로크장치구동프로그람은 다음과 같은 기 법을 채택한다. 

- 전략루린은 렬에 들어 있는 첫번째 요청 을 처 리 하고 자료전송을 완료하면 새 치기 
가 발생하도록 블로크장치 조종기 를 설정 한다. 그리 고 전략루린은 완료한다. 

- 블로크장치 조종기 가 새 치 기 를 발생 시 키 면 새 치 기 처 리 기 는 하반부 (bottom half) 
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를 활성화한다. 하반부조종기는 렬에서 요청을 제거하고 전략루린을 다시 실행하여 렬의 
다음요청을 처 리하도록 한다. 

기 본적 으로 저 준위 블로크장치 구동프로그람을 다음과 같이 세 분화할수 있 다. 

- 한 요청의 각 블로크를 개별적으로 처리하는 구동프로그람 

- 한 요청의 여러 블로크를 한꺼번에 처리하는 구동프로그람 

두번째 류형의 구동프로그람은 첫번째 류형보다 설계와 작성과정이 훨씬 복잡하다. 
물리적블로크장치에서는 분구가 련속적이여도 RAM 에 있는 완충기가 반드시 련속적일 
필요는 없다. 따라서 두번째 류형의 구동프로그람은 DMA 자료전송을 위한 림시 령역을 
할당해 야 하고 림 시 령역 과 요청 목록의 각 완충기 사이에 《 기 억 기 -기억 기 복사》를 수행해 
야 한다. 

앞에 있는 두 류형의 구동프로그람이 처리하는 요청은 모두 린접한 블로크들로 구성 
되 여있으므로 어느 경우에 나 훨씬 적은 탐색 ( seek ) 명 령을 사용함으로써 디스크성능을 
향상한다. 그러나 두번째 류형의 구동프로그람이 탐색명령을 더 감소시켜주는것은 아니 
며 디스크에서 여러 블로크를 한번에 전송하는것이 디스크성능을 높이는데 그다지 효과 
적이지 않다. 

핵심부는 두번째 류형의 구동프로그람에 대해 아무것도 제공하지 않는다. 구동프로 
그람은 요청대기 렬과 완충기머 리부목록을 직접 처리해 야 한다. 각 물리적블로크장치 는 
근본적으로 서로 달라서 (례를 들어 유연성구동프로그람은 디스크자리길의 블로크를 묶어 
서 전체 자리길을 입출력연산 한번으로 전송한다.) 요청을 한꺼번에 어떻게 처리할것인 
가에 대한 일반적 인 가정은 거의 무의미하기때문이 다. 

그러 나 핵 심부는 첫번째 류형의 저준위 블로크장치구동프로그람에 대 해서는 제 한된 
지원을 제공한다. 따라서 이 종류의 구동프로그람을 좀 더 보기로 하자. 

전형적 인 전략루린은 다음과 같은 작업을 수행해야 한다. 

1. 요청대기렬에서 현재요청을 엄는다. 모든 요청대기렬이 비였다면 루린을 완료한다. 

2. 현재요청이 일관된 정보를 포함하는지 검사한다. 특히 블로크장치의 주번호가 
요청 서 술자의 rqjrdev 마당에 들어있는 값과 일 치 하는지 비 교한다. 또 목록의 첫번째 완 
충기 머 리 부에 잠그기 가 걸 려있는지 검 사한다. ( ll _ rw _ block () 가 BH _ Lock 기 발을 1로 
설정해야 한다.) 

3. 첫번째 블로크의 자료를 전송하도록 블로크장치조종기를 설정한다. 자료전송방 
향은 요청서술자의 cmd 마당에서，완충기주소는 buffer 마당에서，처음 분구번호와 전송 
될 분구수는 sector 와 current _ nr _ sectors 마당에서 각각 얻을수 있다. 
current _ nr _ sectors 는 요청내에 첫번째블로크의 분구수를 포함하며 nr _ sectors 는 요청 
의 전체 분구수를 포함한다. 또한 DMA 자료전송을 마치면 새치기를 발생하도록 블로크 
장치조종기를 설정한다. 

4. ll _ rw _ block () 가 블로크들라스터링한 블로크장치파일을 처리하는 경우 전송될 
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블로크의 관리를 위해 요청서술자의 sector 마당을 증가시키고 nr _ sectors 마당을 감소시 
킨다. 블로크장치의 DMA 자료전송완료와 관련한 새치기처리기는(직접 또는 하반부를 
통해) end _ request () 함수(또는 블로크장치구동프로그람의 같은 일을 수행하는 독자적 
인 함수)를 호출해 야 한다. 이 함수는 자료전송이 성 공하였 다면 파라메터 로 1을 받으며 
실패하였다면 0을 받는다. end _ request () 는 다음과 같은 연산을 수행한다. 

1. 오유가 발생 하면 (과라메터 값이 0인 경 우) 블로크에 남은 분구를 건너 뛰 기 위 해 
sector 와 nr _ sectors 마당을 갱신한다. 3 a 단계에서 완충기의 내용이 최신이 아니라고 
표시하게 될것이다. 

2. 전송된 블로크의 완충기머 리부를 요청목록에서 제거한다. 

3. 완충기머리부의 b _ end _ io 메쏘드를 호출한다. ll _ rw _ block () 함수가 완충기머리 
부를 할당할 때 이 마당을 end _ bu 打 er _ io _ sync () 함수의 주소로 채운다. 이 함수는 다 
음과 갈은 두 연산을 수행한다. 

a . 자료전송성공 또는 실패에 따라 완충기머리부의 BH _ Uptodate 기발을 1 또는 0 
으로 설정한다. 

b . 완충기 머리부의 BH _ Lock , BH _ Wait _ IO , BH _ launder 기발을 지우고 완충기 머 
리부의 b _ wait 마당이 가려키는 대기렬에 들어있는 모든 프로쎄스를 깨운다. 

b _ end _ io 마당은 다른 함수를 가리킬수도 있다. 례를 들어 create _ bounce () 함수가 
림시 로 완충기 를 아래자러기 억기 에 생 성하였 다면 웃자러기 억기 의 원래완충기 를 갱 신하고 
b _ end _ io 마당이 원래 완충기머리부의 b _ end_io 메쏘드를 호출하는 적절한 함수를 가리 
킨 다. 

4. 요청목록에 또 다른 완충기머리부가 있다면 요청서술자의 current _ nr_sectors 
마당을 새로운 블로크의 분구수로 설정한다. 

5. buffer 마당을 새로운 완충기주소(새로운 완충기머리부의 b _ data 마당에서 엄을 
수 있다.)로 설정한다. 

6. 요청목록이 비여있다면 모든 블로크를 처리했으므로 다음연산을 수행한다. 

a . 요청대기렬에서 요청서술자를 제거한다. 

b . 요청이 완료되기를 기다리는 프로쎄스를 모두 깨운다(요청서술자의 waiting 

마당). 

c . 요청의 rq_status 마당을 RQ _ INACTIVE 로 설정한다. 

d . 요청서술자를 해제된 요청의 목록에 넣는다. 

end _ request 를 수행한 다음 저준위구동프로그람은 요청대기렬이 비였는지 검사한 
다. 비 여있지 않으면 전략루린을 다시 실행 한다. end _ request () 는 중복된 두 순환을 
실행한다. 외부순환은 요청대기렬의 각 요소에 대해 반복하며 내부순환는 각 요청의 완 
충기머리부목록의 각 요소에 대해 반복한다. 따라서 전략루린은 요청대기렬의 각 블로크 
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에 대해 한번씩 실행된다. 

11. 블로크와 폐지입출력연산 

이제 부터 는 핵 심부가 블로크장치구동프로그람을 어 떻게 사용하는지 고찰한다. 그리 
고 핵 심 부가 디 스크입 출력 자료전송을 활성 화하는 여 러 가지 경 우를 고찰한다. 그렇 지 만 
여기서는 블로크장치에 대한 기본적인 두 종류의 입출력자료전송을 보기로 한다. 

o 블로크입출력연산 

이 입 출력연산은 장치 블로크 하나를 전송한다. 따라서 전송할 장치 를 RAM 완충기 
하나에 보관할수 있 다. 디 스크주소는 장치번호와 블로크번호로 구성 된 다. 블로크장치 의 
주번호, 부번호 그러 고 론리 적 블로크번호의 조합으로 나타내 는 특수한 디 스크블로크와 
완충기가 대응한다. 

o 폐지입출력연산 

이 입출력연산은 폐지틀 하나를 채우는데 필요한 수의 블로크를 전송한다. (정확한 
수는 디스크블로크의 크기와 폐지틀크기에 의존한다.) 패지틀의 크기가 블로크크기의 배 
수면 입출력연산 한번으로 여러 디스크블로크를 전송한다. 각 폐지틀은 한 파일에 속한 
자료를 담고있다. 이 자료가 련속한 디스크블로크에 보관되 여있을 필요가 없으므로 파일 
의 색인마디와 파일내에서 편위을 사용하여 나타낸다. 

블로크입출력연산은 핵심부가 파일체계에서 블로크 하나(례를 들면 색인마디나 초블 
로크를 담고있는 블로크)를 읽거나 쓸때 주로 사용된다. 반면에 폐지입출력연산은 주로 
파일을 읽고 쓸 때 (정규파일과 블로크장치파일 모두), 기억기배 치를 통해 파일에 접근할 
때 교환 등에 사용된다. 

두 종류의 입 출력연산 모두 블로크장치 에 접 근하기 위해 같은 함수들을 사용하지 만 
핵심부는 같은 함수들을 가지고 다른 알고리듬과 완충화기법을 사용한다. 

1) 블로크입 출력연산 

breadO 함수는 블로크장치에서 한 블로크를 읽어서 완충기에 보관한다. 이 함수는 
장치식별자, 블로크번호，블로크크기를 과라메터 로 받아들여 블로크를 담고있는 완충기 
의 완충기머리부지적자를 반환한다. 

이 함수는 다음과 갈은 연산을 수행 한다. 

1. ge1±>lk() 함수를 호출하여 완충기캐쉬라는 쏘프트웨어캐쉬에서 블로크를 찾는다. 
패쉬 에 블로크가 없으면 getblkO 는 블로크를 위한 새로운 완충기를 할당한다. 

2. 자료를 포함하고있는 완충기페지에 대해 mark_page_accessed() 를 호출한다. 

3. 이미 완충기에 유효한 최신자료가 있으면 함수를 마친다. 

4. ll_rw_block() 를 호출하여 읽기연산을 시작한다. (《ll_rw_block() 함수》참고) 

5. 자료전송이 끝날 때까지 기다린다. 이를 위해 wait_on_buffer() 라는 함수를 호 
출한다. 이 함수는 현재프로쎄스를 b_wait 대기렬에 넣고 완충기가 잠그기에서 풀릴 때 
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까지 프로쎄스를 보류한다. 

6. 완충기가 유효한 자료를 담고있는지 검사한다. 자료가 유효하다면 완충기머리부 
의 주소를 반환한다. 그렇지 않으면 NULL 지적자를 반환한다. 

디 스크에 어 떤 블로크를 직 접 쓰는 함수는 없 다. 완충기 를 불결 이라고 표시하면 나 
중에 해 당 완충기의 내 용을 청소하면서 디스크에 기 록한다. 사실 쓰기연산은 체계성능에 
크게 영향을 주지 않으므로 가능하면 언제나 뒤로 연기한다. (《디스크에 불결한 완충기 
기록》참고) 

2) 폐지입출력연산 

블로크장치는 한번에 한 블로크씩 정보를 전송하는 반면에 프로쎄스주소공간(좀 더 
정확하게는 프로쎄스에 할당된 기억기령역)은 폐지의 모임으로 정의할수 있다. 이와 같 
은 불일치는 폐지입 출력연산을 사용하여 어느 정도 감출수 있다. 페지입 출력연산은 다음 
과 갈은 경우 실행된다. 

- 프로쎄스가 파일에 대해 readO 또는 writeO 체계호출을 한 경우 

- 프로쎄스가 파일을 기억기에 배치하는 폐지위치를 읽을 경우 (《기억기배치》참고) 

- 핵심부가 파일기억기배치관련 불결폐지를 디스크로 흘리는 경우 (2 장 2절 《불결 
기억기배치패지를 디스크로 흘리기》참고) 

- 교환하여 넣 기 또는 교환하여 내 보내 기인 경우 핵심부가 폐지 틀 전체 내 용을 디 
스크에서 적재하거나 디스크에 보관하는 경우 

여러 핵심부함수가 폐지입출력연산을 활성화할수 있다. 여기서는 교환폐지를 읽거나 
쓸 때 사용하는 brw _ page () 함수를 살펴본다. 

brw _ page () 함수는 다음과 같은 파라메 터를 받는다. 
rw 

입 출력 연산류형 ( READ , WRITE 또는 READA ) 
page 

페 지 서 술자주소 
dev 

블로크장치번호(주번호, 부번호) 
b 

론리 적 블로크번호배 렬 
size 

블로크크기 

폐지서술자는 페지입출력연산과 관련한 페지를 가리킨다. 다른 핵심부조종경로가 이 
폐지 에 접근할수 없도록 폐지는 brw _ page () 를 호출하기 전에 이미 잠그기가 걸려있어 
야 ( PG _ locked 기발을 설정) 한다. 폐지는 완충기 4096/ size 개에 나뉘어 보관하였다고 
가정한다. 폐지의 i 번째 완충기는 dev 장치의 b [ i ] 블로크에 대응한다. 
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함수는 다음과 갈은 연산을 수행한다. 

1. page->buffers 마당을 검사해서 NULL 이면 create_empty_buffers () 를 수행 하 
여 폐지에 포함된 모든 완충기를 위해 림시로 완충기머 리부를 할당한다. (이와 갈은 완충 
기 머 리 부는 비 동기 적 이 다. 이 에 관해 서 는 4 장 3 절 에 있는 《 완충기 머 러 부자료구조》에 
서 설명한다.). page->buffers 마당에 폐지의 첫번째 완충기의 머리부주소가 보관된다. 
각 완충기머리부의 bj:his_page 마당은 폐지안에 있는 다음완충기의 완충기머리부를 가 
리킨다. 반면에 page->buffers 마당이 NULL 이 아니면 핵심부는 림시로 완충기머리부 
를 할당할 필요가 없다. 

사실 이 경우 폐지는 이미 완충기캐쉬에 포함된 완충기 몇개를 포함하고있다. 그중 
일부는 이미 블로크입출력연산에 사용된것이다. (4 장 3 절의 《완충기폐지》참고) 

2. 패지의 각 완충기머리부에 대해 다음과 같은 단계를 수행한다. 

a. 완충기머리부의 BH_Lock 기발(입출력자료전송을 위한 완충기를 잠그기)과 
BH_Mapped 기발(완충기가 디스크에 있는 파일을 배치)을 설정한다. 

b. b_blocknr 마당에 배 렬 건에서 대응하는 요소의 값을 보관한다. 

c. 비동기적완충기머리부이므로 BH_Async 기발을 설정하고 b_end_io 마당페 
end_buffer_io_async( ) 의 지적 자를 보관한다. (뒤 에서 설명 한다. ) 

3 . 폐지의 각 완충기머리부에 대해 submit_bh() 를 호출하여 완충기를 요청한 
다 . ( 《 ll_rw_block() 함수》참고) 

submit_bh() 함수는 접근하는 블로크장치의 장치구동프로그람을 활성화한다. 앞의 
《 저 준위 요청 처 리》에 서 설명 한것 처 럼 장치 구동프로그람은 실제 자료전송을 처 리 하고 전송 
한 모든 비동기적완충기머리부의 b_end_io 메쏘드를 호출한다. b_end_io 마당은 
end_buffef_io_async() 함수를 가리 키며 이 함수는 다음연산을 실행 한다. 

1. 입출력연산의 결과에 따라 비동기적완충기머리부의 BH_Uptodate 기발을 설정한다. 

2. BH_Uptodate 기 발이 설정되 여 있지 않으면 블로크전송중에 오유가 발생 했으므로 
페지서술자의 PG_error 기발을 설정한다. 함수는 완충기머리부의 b_page 마당에서 페지 
서술자의 주소를 얻는다. 

3. page_update_lock 스핀잠그기를 얻는다. 

4. 완충기 머리부의 BH_Async 와 BH_Lock 기발을 해제하고 완충기를 기다리는 각 
프로쎄스를 깨운다. 

5. 패지의 완충기머 리부중 아직도 잠그기 가 걸 린것 이 있다면(즉 입 출력자료전송이 
아직 완료하지 않았다면) page_update_lock 스핀잠그기를 해제 하고 되돌기 한다. 

6. 그렇지 않다면 page_update_lock 스핀잠그기를 해제하고 패지서술자의 
PG_error 기발을 검사한다. 기발이 해제되였으면 폐지의 모든 자료전송이 성공적으로 
끝났으므로 함수는 폐지서술자의 PG_uptodate 기 발을 설정 한다. 

7. 폐지잠그기를 풀고 PG_locked 기발을 해제하고 page->wait 대기렬에서 기다 
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리는 프로쎄 스들을 깨운다. 패지입출력연산이 완료한 다음에도 

create _ empty _ buffers 0가 할당한 림시로 완충기머리부가 자동으로 해제되지 않는다. 
4장 4절에서 보지만 림시로 완충기는 핵심부가 기억기를 회수하려 할 때 해제된다. 

12. 문자장치구동프로그람 

문자장치는 복잡한 완충화전략이 필요없고 디스크패쉬도 사용하지 않으므로 다루기 
쉬운 편이 다. 물론 문자장치마다 요구사항이 다르다. 하트웨어장치를 구동하기 위해 복잡 
한 통신규약을 구현해야 하는 경우도 있고 간단히 하드웨어장치의 입출력포구에서 값 몇 
개만 읽으면 되기도 한다. 례를 들어 다중표구 직렬카드장치(여 러 직렬포구를 제공하는 
하드웨 어 장치 )의 장치 구동프로그람은 모선마우스의 장치 구동프로그람보다 훨씬 복잡하다. 

그렇지만 같은 주번호를 서로 다른 장치구동프로그람에 할당할수 있으므로 약간 복 
잡한 문제가 발생한다. 례를 들어 주번호 10은 실시간박자나 PS /2 마우스와 같이 여러 
장치 구동프로그람에 서 사용한다. 

어떤 문자장치구동프로그람이 현재 사용중인지 파악하기 위해 핵심부는 주번호와 부 
번호로 참조하는 하쉬표을 사용한다. 하쉬표자료배럴은 cdev _ hashtable 변수에 보관된 
다. 여기에는 문자장치서술자 64개의 목록이 보관된다. 각 서술자는 char _ device 자료 
구조이고 표 5-20 에 이 자료구조의 마당을 주었다. 


표 5-20. _ g 자장지서술자의 마당 


형 

마 당 

설 명 

struct list head 

Hash 

하쉬표목록의 지시자 

atomic t 

Count 

문자장치 서 술자의 사용계 수기 

dve t 

Dve 

문자장치의 주번호, 부번호 

atomic t 

Openers 

사용되지 않음 

struct semaphore 

Sem 

문자장치를 보호하는 신호기 


블로크장치 구동프로그람과 미 찬가지 로 하쉬 표가 필요한 리 유는 핵 심 부가 문자장치 파 
일이 이미 열려있는지 검사하는것만으로는 문자장치구동프로그람이 이미 사용중인지 판 
단할수 없기 때 문이 다. 사실 체 계 등록부나무에 는 경 로명 은 다르지 만 주번호와 부번호가 
같은 여 러 문자장치파일 이 있을수 있다. 그러 고 이 파일들은 사실 모두 같은 장치 구동프 
로그람을 가리키는것 이다. 

문자장치서술자를 가리키는 장치파일을 처음으로 열 때 문자장치서술자가 하쉬표에 
삽입된다. 

init _ special _ inode () 함수가 이 작업을 수행한다. 이 함수는 어떤 디스크색인마디 
가 장치파일을 나타낸다는 사실을 판단했을 때 저준위파일체계계층이 호출한다. 
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init _ special _ mode () 는 하쉬표의 문자장치서술자를 람색한다. 서술자를 찾을수 없으면 
새로운 서술자를 할당하고 이것을 하쉬표에 삽입한다. 함수는 또한 서술자의 주소를 장 
치파일의 색인마디객체의 i _ cdev 마당에 보관한다. 

《 VFS 의 장치파일처리 》 에서 openO 체계호출의 봉사루린에서 호출되는 
dentry _ open 0함수는 문자장치파일의 파일객체에 있는 f _ op 마당이 def _ chr_fops 표를 
가리키도록 설정한다고 하였다. 이 표는 대부분 비여있으며 chrdev _ open () 함수가 장치 
파일의 열기메 쏘드를 정의한다. 이 메 쏘드는 dentry _ open () 에서 직접 호출된다. 

chrdev _ open () 함수는 문자장치파일의 주번호에 대응하는 chrdevs 표요소에 들어 
있는 주소를 파일객체의 f _ op 마당에 기록한다. 그리고 이 함수는 open 메쏘드를 다시 
호출한다. 

주번호가 한 장치구동프로그람에 할당되 었 다면 메 쏘드는 장치구동프로그람을 초기 화 
한다. 그렇지 않고 주번호가 여러 장치구동프로그람사이에 공유되고있으면 메쏘드는 한 
번 더 장치파일의 부번호로 참조히는 자료구조에서 발견한 주소를 파일객체의 f _ op 마당 
에 기록한다. 

례를 들어 주번호 10인 장치파일에 대 한 file _ operations 자료구조가 단일련결목록 
misc _ list 에 보관되여있다. 끝으로 장치구동프로그람을 마지막으로 초기화하기 위해 
open 메쏘드를 호출한다. 한번 열리면 읽기와 쓰기를 위해 문자장치파일에 접근할수 있 
다. 이를 위해 파일객체의 read 와 write 메쏘드가 장치구동프로그람의 적절한 함수를 가 
리 킨다. 대 부분의 장치 구동프로그람은 ioctl 파일 객 체 메 쏘드를 통해 ioctlO 체 계 호출도 지 
원한다. 이것을 통해 하드웨어장치에 특수명령을 전송할수 있다. 
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제 6 장. 망관리 

Linux 핵 심 부는 다양한 망기 본방식(대 표적 으로 TCP/IP) 을 지 원하며 망파케 트를 순 
서짜기하기 위한 다양한 알고리듬을 구현한다. 또한 체계관리자가 경로기, 망문, 방화벽， 
웨브봉사기 등을 핵심부준위 에서 직접 쉽게 설정할수 있는 프로그람들을 포함하고있다. 

현재의 망환경코드는 버콜리 Unix (BSD) 에서 파생되였는데 이것을 Net_4 라 부론다. 

이 코드는 Linux 망환경 코드의 네 번째 판본이다. 

망환경코드는 VFS 와 비슷하게 객체를 사용하여 많은 기본방식에 대한 공통대면부 
를 제 공한다. 그러 나 VFS 와 달리 망환경코드는 층으로 구성 되 여있으며 매 개 층은 린접 
한 층에 대해 잘 정의된 대면부를 가지고있다. 망을 통해 전송한 자료는 재사용할수 없 
으므로 캐쉬에 보관하지 않는다. Linux 는 효률을 높이기 위하여 자료가 층을 통과할 
때 복사하지 않고 원본자료를 보관할 때 매층이 요구하는 조종정보를 보관하는데 충분한 
완충기에 보관한다. 

한개 장에서 Linux 망환경코드를 구체적으로 설명하는 것은 불가능하다. 실제로 전 
체 핵 심부원천의 20% 정도가 망환경 에 대 한 내용으로 구성되 여있으므로 Linux 망보조체 
계의 모든 기능, 구성요소와 자료구조체의 이름을 설명하는것은 어렵다. 

이 장에서 설명하는 내용은 매우 제한된것이다. 이 장에서는 통신규약가운데서 
TCP/IP 탄창을 기본으로 설명하며 자료련결층과 망층 그리고 전송층만을 설명 한다. 

그러고 간단히 설명하기 위해 UDP 통신규약에 대하여 집중적으로 론의하며 핵심부 
가 어떻게 단일데타그람을 보내고받는지 간단히 설명한다. 

틈퓨터 가 망기 판을 리 용하여 국부망 (LAN, Local Area Network) 에 련결되 여있 
다고 가정한다. 

첫번째 절에서는 Linux 망환경에서 리용하는 중요한 자료구조체를 설명하며 두번째 
절에서는 단일데타그람을 보내고받는데 필요한 체계호출과 체계 루린을 간단히 설명할것 
이다. 마지막 두 절에서는 핵심부가 파케트를 보내고받기 위해 망기판와 어떻게 호상작 
용하는가를 설명 한다. 

이 장에서는 독자가 이미 망통신규약, 층 그러고 응용프로그람에 관한 지식을 가지 
고있다고 가정한다. 

망보조체 계 를 위 한 프로그람을 작성 하는 일 이 매 우 어 려 운 작업 이 다.이 장에 서 는 통 
신규약의 구체적 인 내용은 설명하지 않기때문이다. 따라서 다른 조작체계에 이미 존재하 
는 망프로그람의 실례를(오유를 포함해서) 참고해 야 한다. 그러고 고속적 이고 효률적 인 
프로그람을 작성해야지 그렇지 않으면 높은 망부하를 견디지 못할것이다. 
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제 1 절. 망환경자료구조체 

이 절에서는 Linux 가 망의 저준위층을 어떻게 실현하는가에 대한 일반적인 개요를 
설명 한다. 

1. 망기본방식 

망기본방식은 특정한 를퓨터망이 어떻게 구성되여있는가를 설명한다 . 기본방식은 명 
백하게 목적이 정의된 《층 ( layer )》 의 집합을 정의한다. 매층에 있는 프로그람은 서로 
공유하는 규칙과 규약 (보통《통신규약 ( protocol )》 이라고 부론다.)에 따라 통신한다. 

표 6-1 에서 볼수 있는것처럼 Linux 는 다양한 망기본방식를 지원한다. 


M 6-1. Linux 에서 지원중 Sfi 


이 름 

망기 본방식 과 통신규약집 합 

PF APPLETALK 

Appletalk 

PF BLUETOOTH 

Bluetooth 

PF BRIDGE 

다중통신규약망다리 

PF DECnet 

DECnet 

PF—INET 

IPS 의 IPv 4 통신규약 

PFJNET 6 

IPS 의 IPv 6 통신규약 

PF IPX 

Novell IPX 

PF LOCAL , PF UNIX 

Unix 도메 인소케 트(내 부통신) 

PF PACKET 

IPS 의 IPv 4/ IPv 6 통신규약저수준접근 

PF — X 25 

X 25 


IPS (Internet Protocol Suite ) 는 인터네트의 망기본방식이다. 인터네트는 세계적 
으로 콤퓨터국부망 수십만대를 련결한 국제적 인 망이다. 종종 IPS 에서 정의하는 중요한 
통신규약 두개의 이름을 사용해서 《 TCP / IP 망기본방식》이라고 부르기도 한다. 

망대면부카드 

망대면부카드 ( NIC:Network Interface Card ) 는 대응하는 장치파일이 없는 특별한 
입 출력 장치 이 다. 기 본적 으로 망카드는 원격체 계 와 련결되 여있는 선으로 자료를 보내 고 
원격체계에서 보내온 파케트를 핵심부기억기에 받는다. 

BSD 에서 시작해서 모든 Unix 체계는 체계에 설치된 매개의 망카드에 서로 다른 이 
름을 할당한다. 례를 들어 첫번째 국부망카드에는 e 比10이 라는 이름을 할당한다. 

그러나 이러한 이름은 어떠한 장치파일과도 대응하지 않으며 체계등록부나무구조에 
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색 인마디를 보관하지 않는다. 

파일체 계 를 리 용하지 않으므로 체 계관리 자는 장치이 름과 망주소간의 관계 를 설정해 
야 한다. 《 망환경 관련체 계 호출》절 에 서 볼수 있는것 처 럼 BCDUnix 는 체 계호출의 새 로 
운 그룹을 도입 했 다. 이 러 한 그롭은 망장치에 대 한 표준프로그람모형이 되 였 다. 

2. BSD 소케트 

일반적으로 모든 조작체계는 사용자방식프로그람과 망환경코드간의 응용프로그람대 
면부 ( API : Application Programming Interface ) 를 정의해야 한다. 

Linux 망환경 API 는 BSD 소케트를 기반으로 하고있 다. BSD 소케트는 버콜리 Unix 
4.1 c BSD 에서 도입했으며 대부분의 Unix 계렬에서 제공한다.(직접 실현하거나 사용자 
방식서고의 형태로 실현한다.) 

소케 트는 통신의 종단점 ( endpoint ) 즉 두 프로쎄 스를 련결하는 통로의 끝에 있는 
입출구에 해 당된다. 자료를 한쪽 입출구에 넣으면 잠시후 다른 쪽 입출구에 나타난다. 

통신하는 두 프로쎄스는 서로 다른 콤퓨터 에 위 치할수 있으며 두 종단점사이 에서 자 
료를 이동하는것은 핵심부의 망환경코드이 다. 

Linux 는 sockfs 특수파일체계 에 속하는 파일형 태로 BSD 소케트를 실현한다. (12 장 
에 있는 《 특수과일체계》절 참고) 구체적으로 말하면 핵심부는 새로운 BSD 소케트에 
대해 sockfs 특수파일체계에 새로운 색인마디를 생성 한다. BSD 소케트의 속성은 socket 
자료구조체에 보관된다. 이 자료구조체는 sockfs 색인마디의 u . socket _ i 마당에 포함된 
객체이다. 

BSD 소케트객체의 주요마당은 다음과 같다. 

• inode 

sockfs 의 색인마디객체를 가리킨다. 

• file 

sockfs 의 파일의 파일객체를 가리킨다. 

» state 

소케트의 련결 상태를 보관한다. 소케트련결 상태에는 SS_FREE (할당되지 않음), 

SS_UNCONNECTED (련결 되지 않음)， SS_CONNECTING (련결 중)， 

SS _ CONNECTED (련결됨)， SS _ DISCONNECTING (련결중지 중) 이 있 다. 

• ops 

socket 객체의 메쏘드를 보관하고있는 proto _ ops 자료구조체를 가리 킨다. 소케트 

의 메쏘드는 표 6-2 와 같다. 대부분의 메쏘드는 소케트에 대해 동작하는 체계호출을 

가리 킨 다. 

매 망기본방식은 자체함수를 리용하여 메쏘드를 구현한다. 그러므로 동일한 체 

계호출이라도 대상소케트가 속한 망기본방식에 따라 다르게 동작한다. 
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표 6-2. 

BSD 소케트객체의 베쏘드 

메쏘드 

설 명 

Release 

소케트를 닫기 

Bind 

지역 주소(이름) 할당 

Connect 

련결 을 성 립 ( TCP ) 하거 나 원격 주소를 할당 ( UDP ) 

socketpair 

쌍방향소케 트흐름을 위 한 소케 트쌍생성 

Accept 

련결요구에 대한 대기 

Getname 

지역주소얻기 

Ioctl 

ioctl () 함수 

Listen 

련결요구를 성립하기 위해 소케트를 초기화 

Shutdown 

전이중련결의 한쪽 또는 량쪽 모두 닫기 

setsockopt 

소케트기발에 대한 값 설명 

getsockopt 

소케트기발에 대한 값을 얻기 

Sendmsg 

소케트를 리용하여 파케트전송 

Recvmsg 

소케트로부터 파케트를 받기 

Mmap 

파일 기 억 기 배 치 (망소케 트에 서 는 리 용하지 않음) 

Sendpage 

파일 에 서 (로) 직 접 자료를 복사 (sendfileO 체 계 호출) 


• sk 

저준위 struct sock 소케트서술자를 가리킨다. (다음절 참고) 

3. INET 소케트 

INET 소케트는 struct sock 형 자료구조체이 다. ISP 망기본방식에 속하는 BSD 소케 
트는 socket 객체의 sk 마당에 INET 소케트의 주소를 보관한다. 

socket 객 체 (BSD 소케 트를 나타냄 ) 가 모든 망기 본방식 에서 공통적 인 마당을 포함하 
고있기 때 문에 INET 소케 트가 필 수적 이 다. 핵 심 부는 특정 한 망기 본방식 의 소케 트에 대 해 
다른 몇 가지 정보를 보관해 야 한다. 례를 들어 INET 소케트의 경우 핵심부는 지역 IP 주 
소와 원격 IP 주소, 지 역/원격포구번호，전송통신규약，소케트에서 받은 파케트의 대기렬， 
소케트로 보내기 위해 대기중인 파케트의 대기렬, 소케트를 통해 전송하는 파케트를 처 
리하기 위한 메 쏘드의 표 등을 관리 해 야 하다. 이 런 속성 들을 INET 소케 트에 보관한다. 

INET 소케트객체는 리용할 전송통신규약 (TCP 또는 UDP ) 의 류형에 따라 몇개의 
메쏘드를 정의하고있다. 이러한 메쏘드는 proto 류형의 자료구조체에 보관되며 표 6-3 과 
갈다. 
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표 6-3. 

INET 소케트객제의 에쏘드 

메쏘드 

설 명 

Close 

소케트를 닫기 

Connect 

련결을 성립 ( TCP ) 하거나 원격 주소할당 ( UDP ) 

Disconnect 

성립된 련결을 끊기 

Accept 

련결요구를 대기 

Ioctl 

ioctl () 의 명령함수 

Init 

INET 소케 트객 체 생 성 자 

Destroy 

INET 소케 트객 체 해 제 자 

Shutdown 

전이중련결의 한쪽 또는 량쪽을 닫기 

Setsockopt 

소케트기발에 대한 값설정 

Getsockopt 

소케트기발에 대한 값을 얻기 

Sendmsg 

소케트로 파케트전송 

Recvmsg 

소케트에서 파케트받기 

Bind 

지역 주소 (이름) 할당 

backlon rev 

파케트를 받을 때 호출하는 재귀 호출 ( callback ) 함수 

Hash 

Per protoc 이하쉬표에서 INET 소케트를 추가 

Unhash 

Per protocol 하쉬 표에서 INET 소케트를 제거 

get_port 

INET 소케트에 포구번호할당 


이 표에 서 보는것 처 럼 많은 메 쏘드가 BSD 소케 트객 체 의 메 쏘드와 동일하다. (표 6-2 
참고) 실제 로 BSD 소케 트메 쏘드는 대 응하는 INET 소케 트메쏘드가 정의되 여있다면 
INET 소케트메쏘드를 호출한다. 

sock 객체는 80개이상의 마당을 포함한다. 대부분의 마당은 다른 객체，메쏘드표나 
마당자체의 구체적인 설명을 담고있는 다른 자료구조체를 가리킨다. 

4. 목적지케쉬 

《 connectO 체계호출》에서 설명하겠지만 프로쎄스는 일반적으로 소케트에 《 이름을 
할당》한다. 다시 말하면 소케 트에 기록한 자료를 받을 주콤퓨터의 원격 IP 주소와 포구 
번호를 지적한다. 핵심부는 또한 원격주콤퓨터에서 전송된 적당한 포구번호를 가전 파 
케트를 소케트를 읽는 프로쎄스에 전달한다. 

실제로 핵심부는 사용중인 소케트에서 지정한 원격주콤퓨터에 관한 자료를 기억기에 
계속 유지하고있어야 한다. 망환경코드의 속도향상을 위해 이러한 자료를 목적지패쉬라 
는곳에 보관한다. 목적지캐쉬의 입구점은 dst _ entry 형 객체이다. 각각의 INET 소케트 
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는 dst _ cache 마당에 소케트의 목적지주를퓨터를 나타내는 dst _ entry 객체를 가러키는 
지적자를 보관한다. 

dst _ entry 객체는 핵심부가 해 당 원격주름퓨터 에 파케트를 전송할 때마다 사용하는 
많은 자료를 보관한다. 례를 들면 다음과 같다. 

• 파케 트를 전송하거 나 받는 망장치 (례 를 들면 망기 판)를 설명 하는 net _ device 객 체 
를 가리키는 지적자 

• 파케트를 최종목적지로 전달하기 위한 린접하는 경로기에 관련된 neighbour 구조 
체를 가리키는 지적자(《이웃캐쉬》참고) 

■ 전송할 모든 파케트에 첨부할 공통머려부를 나타내는 hh _ cache 구조체의 지적자 
(《이웃캐쉬》참고) 

- 원격주콤퓨터에서 전송한 파케트를 받을 때마다 호출되는 함수의 지적자 

• 파케트를 전송할 때마다 호출되는 함수의 지적자 

5. 경 로배 정자료구조체 

IP 층의 가장 중요한 기능은 주콤퓨터에서 구성된 파케트나 망카드를 통해 받은 파 
케 트를 최 종목적 지 로 전달하는것 이 다. 경 로배 정 알고리 듬은 높은 망부하를 감당할수 있을 
정도로 충분히 빨라야 하므로 이 작업은 아주 중요하다. 

IP 경로배정기구는 아주 간단하다. IP 주소를 나타내는 32 bit 정수는 주름퓨터가 포 
함된 전체 망을 나타내는《 망주소 (network address ) 》와 망내부에서 주콤퓨터를 나 
타내 는《 주콤퓨터 식 별 자 (host identifier ) 》를 포함한다. IP 주소를 적 확히 해 석 하기 위 
해서 핵 심부는 해 당 IP 주소에 대 한《망마스크 (network mask ) 》를 알아야 한다. 

즉 IP 주소의 어떤 비트가 망주소를 담고있는지 알아야 한다. 례를 들어 IP 주소가 
192.160. 80. 110이 며 망마스크가 255.255.255.0 이 라면 192.160.80. 0이 망주소이 고 
110이 망에 서 주콤퓨터 를 식 별 한다. 망주소는 대 부분 IP 주소의 상위비 트에 보관하므로 
망마스크는 1로 설정된 비트의 수로 나타낼수도 있다.(이 례에서는 24이다.) 

IP 경로배정의 주요속성으로 인터네트내부의 모든 주콤퓨터는 자기의 지역망 
( LAN ) 내부에 있으면서 목적지망으로 파케트를 전달 ( forwarding ) 하는 를퓨터(경로기 
라고 부른다.)의 주소만 알면 된다. 

례를 들어 netstat - m 체계명령이 보여주는 다음경로배정표를 살펴보자. 


Destination Gateway 

192.160.80.0 0.0.0.0 

0 ethl 

192.160.0.0 0.0.0.0 

0 ethO 


Genmask Flags MSS Windowirtt Iface 


255.255.255.0 

u 

40 

0 

255.255.0.0 

u 

40 

0 
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192.50.0.0 

0 

192.160.11.1 

ethO 

255.255.0.0 

UG 

40 

0 

0.0.0.0 

0 

192.160.1.1 

ethO 

0.0.0.0 

UG 

40 

0 


이 콤퓨터 는 두개 의 망에 련결되 여있 다. 하나는 IP 주소가 192.160.80.0 이 며 망마 
스크 ( netmask ) 가 24 bit 이며 etiil 로 할당되 여있는 망대 면부카드 ( NIC ) 를 리 용하고있다. 
다른 망은 IP 주소가 192.160.0.0 이며 망마스크가 16 bit 이고 ethO 에 할당된 NIC 을 러 
용하고있 다. 

망 192.160. 80.0 에 속하며 IP 가 192.160.80.110 인 주를퓨터 에 파케 트를 보낸다 
고 가정 하자. 핵 심 부는 경 로배 정 표에 서 상위입 구점(망마스크에 1의 수가 더 많은 항 
목)부터 검사한다. 

매 입구점에 대해서 목적지 ( destination ) 주콤퓨터의 IP 주소와 망마스크의 론리곱하 
기 ( AND ) 를 수행 한다. 결과가 망목적지 IP 와 동일한다면 핵 심부는 파케 트경 로배 정 을 위 
해 해당 입구점을 리용한다. 우의 경우에서는 처음입구점이 일치하며 파케트는 ethl 망 
장치로 전송된다. 

이 경우 고정경로배정표항목의 《관문 ( gateway ) 》은 null (0.0.0.0) 이다. 이것은 주 
소가 전송주름퓨터와 같은 망에 있다는 의미로서 콤퓨터는 망에 있는 주를퓨터에 직접 파 
케트를 전송한다. 즉 목적지주콤퓨터의 국부망주소와 함께 파케트를 프레임에 매몰한다. 

이 프레임은 망에 있는 모든 주콤퓨터에 방송 ( broadcast ) 되지만, NIC 는 자신과 다 
른 국부망주소를 담은 프레임을 자동적으로 무시한다. 

이제 파케트를 IP 주소가 209.204.146.22 인 주콤퓨터로 보낸다고 가정하자. 이 
주소는 원격망(콤퓨터와 직접 련결되 여있지 않다.)에 속한다. 표의 마지막 입구점은 모 
든 주소와 일 치한다. 망마스크 0.0.0.0 과 론리 적 인 AND 연산을 하면 망주소로 항상 
0.0. 0.0 을 산출하기 때 문이 다. 그러므로 우에 있는 항목으로 해 석할수 없는 IP 주소는 모 
두 e 1: h 0 망장치를 통해서 IP 주소가 192.160.1.1 인 기본경로기로 전송된다. 이 경로기 
는 파케트를 대상목적지에 전달하는 방법을 알고있어야 한다. 파케트는 기본경로기의 국 
부망주소와 함께 프레임에 매몰된다. 

6. 전달정보보관소 

전달정 보보관소 ( FIB : Forwarding Information Base ) 또는 고정 경 로배 정 표 
(static routing table ) 는 핵심부가 파케트를 최종목적지에 어떻게 보낼것인가를 결정하 
는데 참조하는 핵심정보이 다. 파케트의 목적지망이 FIB 에 포함되 여있지 않다면 핵심부 
는 이 파케트를 전송할수 없다. 그러나 앞에서 본것처럼 FIB 는 다른 입구점으로 해석 
할수 없는 IP 주소를 처 리 하기 위한 기 본입 구점 을 담고있 다. 
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FIB 를 실현하는 핵심부자료구조체는 매우 복잡하다. 실제로 경로기는 수백행의 내 
용을 FIB 에 포함하며 대부분이 같은 망장치 나 갈은 관문을 참조할수도 있다. 그림 6-1 
은 표가 앞에서 보여준 경로배정표의 4개 입구점을 포함하고있을 경우 FIB 의 자료구조 
를 간단히 표시한것이다. / proc / net / route 파일을 읽으면 FIB 자료구조에 포함된 자료 
를 저준위에서 확인할수 있다. 

main _ table 대역 변수는 IPS 기본방식의 고정 경로배정 표를 나타내는 fib _ table 객체를 
가리킨다. 2차경로배정표를 정의할수 있지만 main _ table 이 참조하는 표가 가장 중요하 
다. fib _ table 객체는 FIB 에대한 연산을 수행하는 몇가지 메쏘드의 주소를 포함하며 
fn _ hash 자료구조를 가리키는 지적 자를 보관한다. 



그림 6-1. HB 의 주요자료구조 

fn _ hash 자료구조체는 개개의 FIB 구역 ( zone ) 을 가리키는 지적자 33개의 배렬이다. 
구역에는 주어진 수의 비트가 망마스크에 1로 설정된 목적지망에 대한 경로배정표정보 
가 있다. 례를 들어 구역24는 마스크 255.255.255.0 을 가진 망입구점을 포함하고있다. 

매 구역은 fn _ zone 서술자로 표현된다. 이것은 하쉬표를 통해 주어진 망마스크를 
가진 경로배정표의 입구점에 대한 모임을 나타낸다. 례를 들어 그림 6-1 에서 기본구역 
16은 192.160.0.0 과 192.50.0.0 입구점을 나타낸다. 

매개의 경로배정표입구점에 관련한 자료는 fib _ node 서술자에 보관된다. 경로기는 
여러 입구점을 포함할수 있지만 매우 적은 수의 망장치를 가지고있다. 

그러므로 공간랑비를 피하기 위해 f 比) _ node 서술자는 망카드에 대한 정보를 포함하 
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지 않으며 여 러 입구점 이 공유하는 flb _ info 서술자를 가러 키는 지 적 자를 포함한다. 


7. 경로배정캐쉬 


고정경로배정표에서 경로를 찾는것은 매우 느린 작업 이 다. 핵심부는 FIB 에 있는 여 
러 구역을 검색해야 하며 구역의 매 입구점에 대해 주를퓨터목적지주소와 입구점의 망마 
스크를 론리곱하기한 결과가 입 구점 의 망주소와 일 치 하는가를 확인해 야 한다. 

핵심부는 경로배정속도를 높이기 위하여 가장 최근에 발견한 경로들을 경로배정캐쉬 
에 보관한다. 

일반적으로 캐쉬는 입구점을 수백개 포함하고있으며 자주 리용하는 경로를 보다 빠 
르게 검 색 할수 있도록 정 렬되 여있 다. / proc / net / rt _ cache 파일 에서 캐 쉬 에 보관된 입 구 
점을 볼수 있다. 

경 로배정캐쉬의 주요자료구조는 rt _ liash _ table 하쉬 표이 다. 하쉬 함수는 목적지 주콤퓨 
터의 주소와 파케트의 원천주소, 요구하는 봉사형태 등을 조합한다. Linux 망환경코드는 
경로배정프로쎄스를 세밀하게 조정할수 있도록 한다. 례를 들어 파케트가 어디에서 왔는 
가, 어떤 종류의 자료를 전송하고있는가에 따라 여러 경로를 통해 전송할수 있게 한다. 

캐쉬의 매 입구점은 rtable 자료구조체를 가진다. 이 자료구조체는 여러 정보를 보관 
하며 다음과 같은 정보를 포함한다. 

• 원천과 목적지 IP 주소 

- 망문 IP 주소(있는 경우) 

- 입구점 으로 구분되는 경 로와 관련된 자료 

rtable 자료구조체의 dst _ entry 에 보관된다. (《목적지캐쉬》참고) 

8. 이웃캐쉬 

망환경코드의 다른 핵심요소는《 이웃캐쉬 (neighbor cache ) 》이 다. 이 캐쉬는 콤 
퓨터에 직접 련결된 망에 속하는 주콤퓨터와 관련한 정보를 포함한다. 

앞에서 본것처럼 IP 주소는 망층의 주요주를퓨터식별자이다. 그렇지만 IP 주소는 저 
준위자료련결층에는 아무런 의미도 없으며 자료련결층의 통신규약은 하드웨어에 따라 다 
르다. 핵심부가 어떤 주어진 망카드장치를 리용하여 파케트를 전달해야 하면 하드웨어에 
따르는 원천과 목적지망카드장치의 식별자를 포함하는 프레임에 전달할 자료를 매몰해야 
한다. 

대부분의 LAN 은 IEEE 8()1 통신규약에 기초하고있으며 특히 일반적으로《국부망》 
으로 알려진 802. 3통신규약을 따른다. 802통신규약의 망식별자는 48 bit 의 수이며 반점 
으로 구분되여있는 6 B 로 표현한다. (《00:50: DA :61: A 7:83> 과 같다.) 식별자가 동일 
한 망카드는 없다. (물론 같은 LAN 에 있는 망카드의 식 별자들이 서 로 다르기만 하면 충 
분하다.) 


透資邊 @資變©^ 


593 


Linux 행심부해설서 

핵심부는 주소해석통신규약 ( ARP : Address Resolution Protocol ) 이라는 IPS 통 
신규약을 리용한다. 

핵심부는 국부망에 다음과 같은 질문을 포함한 방송파케트를 전송한다. 《 IP 주소 X 
에 대응하는 망장치의 식별자는 무엇 인가?》그 결과로 이 IP 주소를 사용하고있는 주콤 
퓨터는 망카드식별자를 파케트에 실어 응답한다. 

전송할 모든 파케트에 대해 이 작업을 반복하는것은 시간랑비이다. 그러므로 핵심부 
는 망카드장치식별자와 원격장치에 대한 물리적련결과 관련된 중요한 정보를 이웃캐쉬 
( arp 캐쉬라고도 부른다.)에 보관한다. 이 캐쉬의 내용은 / proc / net / arp 파일을 보면 알 
수 있다. 체계관리자는 arp 명령을 사용하여 이 캐쉬의 입구점을 정확히 설정할수 있다. 

이웃캐쉬의 각 입구점은 neighbour 형객체이다. 매 입구점에서 가장 중요한 마당은 
ha 토서 망카드장치 식 별 자가 보관되 여 있 다. 입 구점 에 는 또한 하드웨 어 머 리 부캐 쉬 에 속하 
는 hh _ cache 객체를 가리키는 지적자가 보관된다. 동일한 원격망카드장치에 전송되는 
모든 파케 트는 동일 한 머 리 부(기 본적 으로 전송하는 장치 식 별 자와 목적 지 장치 식별 자를 전 
송함)를 가진 프레임에 매몰되므로 핵심부는 모든 파케트에 대해 머리부를 재생성하지 
않도록 완충기 억기 에 머 리부를 복사해문다. 

9. 소케트완충기 

망장치 를 통해 전송되 는 단일 파케 트는 여 러 토막의 정 보로 구성 되 여있 다. 

부하 ( payload ) 외에도 자료련결층에서 전송층까지의 모든 망층은 몇개의 조종정보 
를 추가한다. 망카드장치가 처리하는 파케트의 형태는 그림 6-2 와 같다. 


자료련결층의 프레 임 
망층의 데 타그람 
전송층의 토막 


그림 6-2. 파케트형태 
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전체 파케트는 여러 단계 에서 여러 함수를 통해 만들어진다. 례를 들어 UDP/TCP 
머 리 부와 IP 머 리 부는 각각 IPS 기 본방식 의 전송층과 망층에 속하는 함수가 생 성한다. 
반면 에 IP 데타그람을 내 포하는 프레 임 을 생 성하는 하드웨 어 머 리 부와 꼬리 부는 망카드장 
치 에 따라 적당한 메쏘드가 생성한다. 

Linux 망환경코드는《소케트완충기 (Socket Buffer ) 》라는 큰 기억기구역에 매 파 
케트를 유지한다. 매개의 소케트완충기에는 서술자가 대응한다. 서술자는 sk_buff 형자 
료구조체로서 다음과 같은 자료구조체를 가리키는 지적자를 담고있다. 

• 소케 트완충기 

- 부하 즉 사용자자료(소케트완충기내부) 

• 자료련결꼬리부(소케트완충기내부) 

■ INET 소케트 (sock 객체) 

• 망장치의 net_device 객체 

• 전송층머리부의 서술자 

• 망층머리부의 서술자 

• 자료련결층머리부의 서술자 

• 목적 지 캐 쉬 입 구점 ( dst_entry 객 체 ) 

sk_buff 자료구조체는 파케트전송에 사용하는 망통신규약의 식별자, 검사합마당，받 
은 파케트의 도달시 간과 같은 다른 마당들도 포함한다. 

일반적으로 핵심부는 자료복사를 하지 않으며 간단히 sk_buff 서술자지적자(즉 소케 
트완충기를 나타낸다.)를 매 망환경층에 차례로 전달한다. 례를 들어 파케트를 보내려고 
준비 하는 과정 에 서 전송층은 부하를 사용자방식 완충기 에 서 소케 트완충기 의 뒤 부분에 복 
사한다. 전송층은 부하앞에 TCP 나 UDP 머리부를 추가한다. 다음 망층으로 넘어가서 
소케 트완충기 서 술자를 전달받아 IP 머 리 부를 전송머 리 부앞에 추가한다. 

끝으로 자료련결층이 머리부와 꼬리부를 추가하고 파케트를 전송하기 위해 대기렬에 
넣는다. 


제2 절. 망관련체계호출 

망환경 과 관련 있는 모든 체계호출을 론의 할수는 없 다. 여 기서 는 UDP 데 타그람을 전 
송하는데 필 요한 기 본적 인 체 계호출에 관해 서 만 설 명 한다. 

대부분의 Unix 계 렬체 계 에서 데 타그람을 전송하는 사용자방식 코드부분은 다음과 같다. 
I nt sockfd ； /* 소케트서술자*/ 

struct sockaddr_in addr _ local , addr _ remote ； /* IPv 4 주소서술자*/ 
const char * mesg [] = ” Hello , how are you ?” : 
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sockfd = socket(PF—INET, SOCK—DGRAM, 0); 

addr_local. sin_family = AF_INET : 
addr_local. sin_port = htons (50000); 

addr_local. sin_addr. s_addr = htonl(0xc0a050f0) : /*192.160.80.240*/ 
bind (sockfd, (struct sockaddr *) &addr_local, 
sizeof (struct sockaddrjn)) : 

addr_remote. sin_family = AF—INET; 
addr_remote. sin_port = htons (49152); 

inet_pton(AF_INET, ” 192.160.80.110” , &addr_remote. sin_addr) : 
connect (sockfd, (struct sockaddr *) &addr_remote, 
sizeof (struct sockaddrjn)) : 
write (sockfd, mesg, strlen (mesg)+l); 

물론 우의 코드는 완전한 원천코드가 아니다. 다시 말하여 mainO 함수를 정의하지 
않았고 머리부파일을 읽기 위한 적확한 Wnclude 지시문 (directive) 을 생략했으며 체계 
호출의 반환값을 확인하지 않았다. 그러나 우의 원천코드는 UDP 데타그람을 전송하기 
위해 프로그람이 호출하는 모든 망관련체계호출을 포함하고있다. 

이제 프로그람에서 사용한 체계호출을 사용한 순서대로 설명한다. 

1. socket 。 체계호출 

socketO 체계호출은 둘 이상 프로쎄스가 서로 통신하기 위한 새로운 종단점 
(endpoint) 을 생성한다. 우의 실례에서는 다음과 같이 호출한다. 
sockfd = socket (PF—INET, SOCK_DGRAM, 0); 

socketO 체계호출은 파일서술자를 되돌린다. 실제로 소케트는 일반적인 read() 와 
write() 체계호출을 리용하여 자료를 읽고쓸수 있으므로 열 린 파일과 비슷하다. 

socketO 체계호출의 첫번째 파라메터는 통신에 리용할 망기본방식과 망기본방식에 
적용된 특정한 망층통신규약을 나타낸다. PF_INET 마크로는 IPS 기본방식과 IP 통신규 
약 (IPv4) 을 나타낸다. Linux 는 [표 6-1] 와 같이 다양한 망기본방식를 지원한다. 

두번째 파라메터는 망기 본방식 에서 정의된 통신에 대 한 기 본적 인 모형을 지정 한다. 
이미 알고있는것처럼 IPS 기본방식은 다음과 같은 통신모형에 대한 두개의 선택적인 모 
형을 제공하고있다. 

SOCK_STREAM 


596 


透資© @資變©^ 


채 6 장. 앙•관2| 


TCP 전송통신규약으로 실현한 믿음성있고 련결지 향적 인 스트림기 반통신 

SOCK—DGRAM 

UDP 전송통신규약으로 실현된 믿음성없고 비 련결지 향적 인 데타그람기 반통신 

그러고 특별한 SOCK _ RAW 값은 망층통신규약에 직접적으로 접근하는데 사용할수 
있는 소케 트를 생 성한다. (우의 경 우에 서 는 IPv 4 통신규약이 다. ) 

일반적으로 망기본방식은 통신을 위해 다른 모형을 제공할수 있다. 례를 들어 
SOCK _ SEQPACKET 는 믿음성있고 련결지 향적 인 데타그람통신을 지 정 한다. 반면에 
SOCK _ RDM 은 믿 음성있고 비 련결지향인 데타그람통신을 지 정 한다. 그러 나 이 것 들은 
모두 IPS 에서는 리용할수 없다. 

socketO 체 계 호출의 세 번째 파라메터는 통신에서 사용할 전송통신규약을 지 정 한다. 
일반적으로 망기본방식은 매개의 통신모형에 대해 여러 다른 통신규약을 제공할수 있다. 

이 값을 0으로 하면 SOCK _ STREAM 에는 TCP 전송통신규약 ( IPPROTO _ TCP ) 을 
선택하며 SOCK _ DGRAM 에는 UDP 통신규약 ( IPPROTO _ UDP ) 을 선택한다. 
SOCK _ RAW 는 IPS 의 망층봉사통신규약중 하나를 프로그람작성 자가 지 정할수 있게 해 
준다. 

례 를 들면 인 터 네 트조종통보문통신규약 (Internet Control Message Protocol , I 
PPROTOJCMP ), 외부관문통신규약 (Exterior Gateway Protocol , IPPROTO_EG 
P ) 또는 인터네트그룹관리통신규약 (Internet Group Management Protocol , IPPR 
OTOJGMP ) 등이다. 

socketO 체계호출은 sys _ socket () 체계루린을 리용하여 실현한다. 이 봉사루린은 
다음 세 가지 작업 을 수행 한다. 

1. 새 로운 BSD 소케트에 대 한 서 술자할당 (《 BSD 소케 트》참고) 

2. 지정한 망기본방식, 통신모형 그러고 통신규약에 따라 새로운 서술자초기화 

3. 프로쎄스에서 첫번째 리용가능한 파일서술자를 할당하고 새로운 파일객체를 파일 
서술자, 소케트객체와 련결한다. 

a . 소케트초기화 

socketO 체계호출의 봉사루린을 보면 다음과 같다. 

새로운 BSD 소케트를 할당한 후에 함수는 지정한 망기본방식, 통신모형 그리고 통 
신규약에 따라 반드시 초기화를 수행해 야 한다. 

알려 진 모든 망기본방식에 대해 핵심부는 net _ families 배렬에 net _ proto _ family 형 
객체지적자를 보관한다. 이러한 객체는 핵심부가 망기본방식에 대한 새로운 소케트를 초 
기화할 때마다 호출되는 create 메쏘드를 정의하고있을뿐이다. 

PF _ INET 기본방식의 create 메쏘드는 inet _ create () 로 실현된다. 이 함수는 
socketO 체계호출이 파라메터로 지정 한 통신모형과 통신규약이 IPS 망기본방식과 호환 
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가능한가를 확인한다. 그 다음 새로운 INET 소케트를 할당하고 초기화하며 부모 BSD 소 
케트와 련결한다. 
b . 소케트파일 

socketO 봉사루린은 완료하기 전에 소케트의 sockfs 파일에 대해 새로운 파일객체와 
새로운 입구점객체를 할당한다. 그 다음 이 객체들을 새로운 파일서술자를 리용하여 체 
계호출을 실행한 프로쎄스와 련결한다. (2 장의 《프로쎄스관련파일》참고) 

VFS 와 관련시켜보면 소케트에 대응하는 파일은 전혀 특별하지 않다. 

대응하는 입구점객체 와 색 인마디객체는 각각 입구점캐 쉬와 색 인마디캐쉬 에 포함된다. 
소케트를 생성한 프로쎄스는 열 린 파일에 대해서 동작하는 체계 호출，즉 파라메터로 파 
일서술자를 받는 체계 호출을 리용하여 파일에 접근할수 있다. 물론 파일객체의 메쏘드는 
파일 이 아닌 소케트에 대 해서 동작하는 함수들로 실현되 여있다. 그러 나 사용자방식 프로 
쎄스와 관련시켜보면 소케트파일은 약간 독특한 면이 있다. 

프로쎄스는 파일에서와 같이 openO 체계호출을 절대로 호출하지 않는다. 체계등록 
부나무구조에 대 응하는 내 용이 없기 때 문이 다. (sockfs 특수파일체 계 는 리 용가능한 마운트 
지점 이 없다.) 갈은 리유로 unlinkO 체계 호출을 리용하여 소케트파일을 삭제할수 없는 
데 그것은 sockfs 파일체계에 속하는 색인마디는 소케트가 닫기면(또는 해제되면) 핵심 
부가 자동으로 해제시키기때문이다. 

2. bindO 체계호출 

socketO 체계호출이 완료되면 새로운 소케트가 생성되고 초기화된 상태로 된다. 

새로운 소케트는 통신규약，지역 IP 주소, 지역포구번호，원격 IP 주소 그리고 원격포 
구번호라는 다섯가지 요소로 식별할수 있는 새로운 통신통로를 나타낸다. 

여 기 까지 는《통신규약》요소만이 설정되 여있다. 따라서 사용자방식프로쎄스의 다음 
동작은《지역 IP 주소》와《지역포구번호》를 설정하는것 이 다. 이 두가지 항목은 소케 
트로 파케트를 보내는 프로쎄스를 식별한다. 그러면 원격체계에 있는 받는 프로쎄스는 
누가 통신하고있는가，응답을 어디로 보내야 하는가를 결정할수 있다. 

이 실례프로그람에서 해 당하는 내용은 다음과 같다. 


struct sockaddrjn addr _ local ; 
addr _ local . sin_family = AF _ INET : 
addr _ local . sin_port = htons (5000); 

addr _ local . sin _ addr . s_addr = htonl (0 xc 0 a 050 f 0) : /*192.160.80.240*/ 
bind ( sockfd , (struct sockaddr *) & addr _ local , 
sizeof (struct sockaddrjn )) : 

addr_local 국부변수는 struct sockaddrjn 형 이 며 소케 트에 대 해 IPS 식 별 자를 나 
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타낸다. 

이 변수는 다음과 같은 중요한 세 마당을 포함한다. 

• sin_family 

통신규약계 렬 ( AFJNET ， AFJNET 6 또는 AF_PACKET 표 6_1과 동일하다. ) 

• sin_port 

포구번호 

• sin_addr 

망주소 

IPS 기본방식에서 이 주소는 IP 주소를 보관하는 32 bit 마당인 s _ addr 로 구성되여있다. 

그러므로 이 프로그람에서는 addr _ local 변수마당은 통신규약상수 AF _ INET 로 설 
정 하며 포구번호는 50000이 고 IP 주소는 192.160. 80. 240이 다. 점 으로 구분된 IP 주소 
를 16진수로 변환하는 방법은 다음과 같다. 

80 x 86 기 본방식에서는 수자를 주소가 낮은 바이트가 수자에서 낮은 자리를 나타내도 
록 표시한다. 반면에 IPS 기본방식에서는 주소가 낮은 바이트가 수자에서 높은 자리를 
나타내 도록 표시한다. 자료를 망바이 트순서 로 전송하는 것 을 보장하기 위 해 htonsO 나 
htonlO 과 같은 함수를 리용한다. 반면에 ntohsO 나 ntohlO 과 같은 함수는 수신된 
자료를 망바이 트순서 에 서 주름퓨터바이 트순서 로 변환하는데 리 용한다. 

bindO 체 계 호출은 소케 트파일서 술자와 addr _ local 의 주소를 파라메터 로 받는다. 

이 체계호출은 struct sockaddr _ in 자료구조체의 크기도 받는다. 실제로 bindO 는 
Unix 소케트뿐만아니라 임의의 망기본방식의 소케트를 위해 사용할수 있고 주소의 크기 
가 다른 소케 트류형 에서 도 리 용할수 있다. 

sys _ bind () 봉사루린은 sock _ addr 변수의 자료를 핵심부주소공간에 복사하고 파일 
서 술자에 대 응하는 BSD 소케 트객 체 (struct socket ) 의 주소를 얻 는다. 그리 고 bind 메 쏘 
드를 호출한다. IPS 기본방식에서 이 메쏘드는 inet _ bind () 함수로 실현된다. 

inet _ bind () 함수는 기본적으로 다음과 같은 연산을 수행한다. 

1. bindO 체계호출에 전달된 IP 주소가 주를퓨터의 어떤 망카드주소와 일치하는가를 
확인하려고 inet _ addr _ type () 함수를 호출한다. 만약 다르면 오유코드를 되돌린다. 그러 
나 사용자방식 프로그람은 특정한 IP 주소인 INAPPR _ ANY (0.0.0.0) 를 넘 겨 줄수 있으 
며 이것은 IP 전송자의 주소의 할당을 핵심부에 넘기는 방법이다. 

2. 만약 bindO 체계호출에 넘긴 포구번호가 1,024보다 작다면 사용자방식프로쎄스 
가 초사용자권한이 있는가를 확인한다. (이것은 CAP _ NET _ BIND _ SERVICE 의 특징 이 
다. 20장에서 《 프로쎄스자격과 특징》참고) 그러나 사용자방식프로쎄스는 포구번호로 
0을 넘겨줄수 있으며 이 경우 핵심부는 임의로 사용하지 않는 포구번호를 할당한다. 
(아래 참고) 

3. INET 소케트객체의 rcv _ addr 과 saddr 마당을 체계호출에 전달된 IP 주소로 설정 
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한다. (앞에 있는 마당은 경 로배정 표를 탐색 할 때 사용하며 뒤 에 있는 마당은 전송되는 
파케트머 리부에 포함된다.) 방송이나 다중통로방식과 갈은 특정한 전송방식 이 아니면 두 
마당의 값은 동일하다. 

4. INET 소케트객체의 get_port 통신규약메쏘드를 호출하여 초기화하고 같은 지역에 
포구번호와 IP 주소를 사용하는 INET 소케트가 이미 존재하는가를 검사한다. UDP 전송 
통신규약을 사용하는 IPv4 소케트인 경우 이 메쏘드는 udp_v4_getj)ort() 로 실현한다. 
이 함수는 탐색속도를 높이기 위해 통신규약마다 하쉬표를 하나씩을 리용한다. 사용자방 
식프로그람이 포구를 0으로 지정하면 함수는 사용하지 않는 포구번호를 소케트에 할당 
한다. 

5. 지역포구번호를 INET 소케트객체의 sport 마당에 보관한다. 

3. connect 0체계 호출 

사용자방식프로쎄스의 다음연산은《원격 IP 주소》와《원격포구번호》를 설정하여 
소케트에 기록된 데타그람을 어디로 보내겠는가를 핵심부가 알수 있게 한다. 이 연산은 
connect () 체 계 호출을 실 행 하여 수행 한다. 

하지만 사용자방식프로그람이 소케트를 목적지주를퓨터 에 련결 (connect) 할 필요는 
없다. 실제로 프로그람은 sendtoO 와 sendmsgO 체계호출을 리용하여 매번 목적지주콤 
퓨테 P 주소와 포구번호를 지정하여 소케트를 통해 데타그람을 전송할수도 있다. 이와 
비슷하게 프로그람은 recvfromO 과 recvmsgO 체계호출을 실행하여 UDP 소케트에서 
데타그람을 받을수도 있다. 그러나 사용자방식프로그람이 readO 와 writeO 체계호출을 
리용하여 소케트로 자료를 전송한다면 connectO 체계호출이 반드시 필요하다. 

실례 에서 데타그람을 전송하기 위 해 writeO 체계 호출을 사용했으므로 통보문의 목 
적지를 설정하기 위해 connectO 를 호출한다. 이와 관련된 부분은 다음과 갈다. 

struct sockaddrjn addr_remote : 

addr_remote. sin_family = AF—INET; 

addr_remote. sin_port = htons (49152); 

inet_pton(AF_INET, ” 192.160.80.110” , &addr_remote.sin_addr) : 

connect (sockfd, (struct sockaddr *) &addr_remote, 
sizeof (struct sockaddrjn)) : 

프로그람은 addr_remote 국부변수에 IP 주소 192.160.80. 110과 포구번호 49152를 
할당하여 초기화한다. 이것은 앞절에서 addr_local 변수를 초기화하는것과 비슷하다. 그 
러나 이번에는 inet_pton() 서고함수를 호출하여 점으로 구분된 문자렬형태의 IP 주소를 
망순서형식의 16진수로 변환한다. 

connectO 체계 호출은 bind 0체계호출과 동일한 파라메 터를 받는다. 

그러고 addr_remote 변수의 자료를 핵심부주소공간에 복사하고 파일객체에 대응하 
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는 BSD 소케 트객 체 (struct socket) 의 주소를 검색 한다. 그리 고 connect 메 쏘드를 호출 
한다. IPS 기본방식에서는 이 메 쏘드를 UDP 의 경우 int_dgram_connect() 함수, TCP 
의 경우 inet_stream_connect() 함수를 리용하여 실현한다. 

앞에서 본 간단한 실례프로그람에서는 UDP 통신규약을 리용한다. 

따라서 inet_dgram_connect() 함수가 어떤 동작을 수행하는가를 설명 한다. 

1. 소케트에 지역포구번호가 없으면 사용되지 않는 포구번호를 자동으로 할당하려고 
inet_autobind() 를 호출한다. 이 프로그람의 경우 collected 호출하기 전에 bindO 
체계호출을 실행했다. 하지만 UDP 를 리용하는 응용프로그람은 꼭 이렇게 할 필요는 
없다. 

2. INET 소케트객체의 connect 메쏘드를 호출한다. 

UDP 통신규약은 INET 소케트의 connect 메쏘드를 udp_connect() 함수로 호출한다. 
이 udp_connect() 함수는 다음동작을 수행 한다. 

1. INET 소케트에 이미 목적지주름퓨터 가 설정되 여있다면 목적지 캐쉬(즉 sock 객체 
의 dst_cache 마당이다. 앞에서 본《목적지캐쉬》참고)에서 이 목적지주콤퓨터를 삭 
제한다. 

2. ip_route_connect() 함수를 호출하여 connectO 의 파라메 터 로 전달한 IP 주소 
가 나타내는 주콤퓨터로 가는 경로를 설정 한다. 다음으로 ip_route_output_key () 를 
호출하여 경로배정캐쉬에서 이 경로에 해당하는 항목을 검색한다. (앞에서 본 《 경로배 
정캐쉬》참고) 만약 경로배정패쉬에 원하는 항목이 없으면 ip_route_output_key () 는 
ip_route_output_slow() 를 호출하여 FIB 에서 적당한 항목을 검색한다. (앞에서 본 
《전달보관소》참고) 이제 이 단계가 끝나서 경로를 찾고 적절한 rtable 객체의 주소를 
결정했다고 가정하자. 

3. INET 소케트객체의 daddr 마당을 rtable 객체에서 찾은 원격 IP 주소로 초기화한다. 
일반적으로 이 주소는 사용자가 connectO 체계호출의 파라메터로 지정한 IP 주소와 같다. 

4. INET 소케트객체의 dport 마당을 connectO 체 계 호출의 파라메 터 로 지정 한 원격 
포구번호로 초기화한다. 

5. INET 소케 트객체 의 state 마당에 TCP_ESTABLISHED 값을 넣 는다. (UDP 에서 
사용할 때 이 기발은 INET 소케트가 목적지주콤퓨터로 《 련결》되였다는것을 나타낸 
다.) 

6. sock 객 체 의 dst_cache 입 구점 을 rtable 객 체 에 들어 있는 dst_entry 객 체 의 주소로 
설정한다.(앞에서 본《목적지캐쉬》참고) 
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제 3절. 소케트에 과케트쓰기 


실례프로그람에서 원격주를퓨터에 통보문를 보낼 준비를 모두 마쳤다. 통보문전송은 
소케트가 자료를 기록하는것으로 간단히 진행된다. 

write ( sockfd , mesg , strlen ( mesg )+ l ) : 

writeO 체계호출은 sockfd 파일서술자에 관련된 파일객체의 write 메쏘드를 호출한 
다. 소케트파일인 경우 이 메쏘드를 sock_write 함수를 통해 실현하며 이 함수는 다음 
연산을 수행한다. 

1. 파일의 색 인마디 에 들어있는 socket 객 체의 주소를 결정 한다. 

2. 《통보문머 리부》즉 여러가지 조종정보를 보관하기 위한 msghdr 자료구조체를 
할당하고 초기화한다. 

3. sock _ sendmsg () 함수를 호출한다. 파라메터 로는 socket 객 체 와 msghdr 자료 
구조체의 주소를 전달한다. 

이 함수는 다음동작을 수행 한다. 

a . scm _ send () 를 호출하여 통보문머리부의 내용을 검사하고 scm_cookie (소케트 
조종통보문)자료구조체를 할당하고 여기에 통보문머리부에서 추출한 몇개의 마당을 보 
관한다. 

b . socket 객 체 의 sendmsg 메 쏘드를 호출한다. 파라메터 로는 소케 트객 체 , 통보문머 
리부， scm_cookie 자료구조체의 주소를 전달한다. 

c . scm _ destroy 0를 호출하여 scm_cookie 자료구조체를 해제 한다. 

UDP 통신규약을 지정하여 BSD 소케트를 설정했기때문에 socket 객체메쏘드의 주소 
는 inet _ dgram_ops 표에 보관된다. 특히 sendmsg 메쏘드는 inet _ sendmsg () 함수를 호 
출하는데 이 함수는 BSD 소케트에 보관된 INET 소케트주소를 뽑아낸 다음 INET 소케트 
의 sendmsg 메쏘드를 호출한다. 

UDP 통신규약을 지정하여 BSD 소케트를 설정했기때문에 sock 객체의 메쏘드의 주소 
는 udp_prot 표에 보관된다. 특히 sendmsg 메 쏘드는 udp_sendmsg () 함수를 호출한다. 

1. 전송층 : udp_sendmsg() 함수 

udp _ sendmsg () 함수는 파라메 터 로 sock 객 체 와 통보문머 리 부 (msghdr 자료구조체 ) 
의 주소를 받아서 다음동작을 수행 한다. 

1. udphdr 자료구조체를 할당한다. 이 자료구조체는 전송될 파케트의 UDP 머 리부 
를 담고있다. 

2. 목적지주롬퓨터로 가는 경로를 나타내는 rtable 의 주소를 sock 객체의 
dst_cache 마당에서 얻 는다. 

3. ip _ append _ data () 를 호출한다. 파라메터 로 sock 객 체 , UDP 머 리 부， rtable 객 체 
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그리 고 전송할 파케트를 생성할 UDP 에 고유한 함수의 주소 등 관련된 모든 자료구조체 
의 주소를 전달한다. 

2. 망층 : ip _ append _ data () 함수 

IP 데타그람을 전송하기 위해 ip _ append _ data () 함수를 사용한다. 이 함수는 다음 
동작을 수행 한다. 

1. sock _ alloc _ send _ skb () 를 호출하여 새로운 소케트완충기와 여기에 대응하는 소 
케 트완충기 서 술자를 할당한다. ( 《 소케 트완충기》참고) 

2. 소케 트완충기 안에 서 부하 ( payload ) 의 위 치 를 결정 한다. (부하는 소케 트완충기의 
끝부분에 위치하므로 그 위치는 부하의 크기에 따라 달라진다.) 

3. UDP 머 리부를 위한 공간을 비워두고 소케트완충기에 IP 머리부를 기록한다. 

4. getfrag () 를 호출하여 사용자방식 완충기 에서 UDP 데 타그람의 자료를 복사한다. 
udp _ getfrag () 함수는 필요하다면 자료와 UDP 머리부의 검사합을 계산한다. (UDP 표준 
에서는 검사합연산은 선택사항이므로 지정할수 있다.) 

5. dst_entry 객 체 의 output 메 쏘드를 호출한다. 파라메 터 로는 소케 트완충기 서 술자 
의 주소를 전달한다. 

3. 자료련결층 : 하드웨어머리부를 구성 

dst_entry 객체의 output 메쏘드는 자료련결층의 함수를 호출한다. 이 함수는 파케 
트의 하드웨어머리부(그러고 필요하다면 꼬리부)를 완충기에 기록한다. 

IPS 의 dst_entry 객체의 output 메쏘드는 보통 ip _ output () 함수를 호출하는데 이 
함수는 소케 트완충기서 술자의 주소 skb 를 파라메터 로 받는다. 이 함수는 다음동작을 수 
행 한다. 

• skb_>dst 목적지캐쉬객체의 hh 마당을 확인하여 적당한 하드웨어머리부가 패쉬에 
이미 있는가를 확인한다. (《목적지캐쉬》참고) 마당이 비워있지 않으면 캐쉬는 머 리 
부를 포함하고있 으므로 하드웨 어 머 리 부를 소케 트완충기 로 복사한다. 그리 고 hh_cache 
객체의 hh_ouput 메쏘드를 호출한다. 

• 그렇지 않고 skb -> dst->hh 마당이 비워 있으면 머 리부를 처음부터 생성 해 야 한다. 

함수는 skb_>dst 의 neighbour 마당이 가리키는 neighbour 객체의 output 메쏘드를 

호출한다. 이 메쏘드는 neigh _ resolve _ output () 함수를 호출한다. 이 함수는 머 리부를 
구성하기 위 해 파케트를 전달할 망카드장치와 관련한 net_device 객체의 적당한 메쏘드 
를 호출한다. 

그리고 새로운 하드웨어머리부를 캐쉬에 추가한다. 

hh_cache 캐 쉬의 hh_output 메 쏘드와 neighbour 객체의 output 메 쏘드는 결국 

dev _ queue_xmit 0 함수를 호출한다. 
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dev _ queue _ xmit () 함수는 이후의 전송을 위해 소케트완충기의 대기렬을 관리한다. 

일반적으로 망카드는 느린 장치 이고 어떤 순간이든 많은 파케트들이 전송을 기 다리 
고있을수 있다. 

Linux 핵심부가 고성능경로기에서 활용할수 있는 여러가지 복잡한 파케트순서짜기 
알고리듬을 지원하지만 전송을 기다리는 파케트들은 일반적으로 선입선출 ( FIFO : First 
In First Out ) 방책에 따라 처리한다. (따라서 파케트의 대기렬이라는 용어를 사용한 
다 .) 일반적으로 모든 망카드장치는 전송을 대기중인 파케트의 대기렬을 독자적으로 정 
의 한다. 루프백 장치 ( lo ) 나 다양한 통로화 ( tunneling ) 통신규약을 제 공하는 장치 와 같은 
가상장치 인 경우는 례외 이 다. 

소케트완충기의 대기렬은 복잡한 Qdisc 객체를 리용하여 실현된다. 이 자료 구조에 
의하여 파케트순서짜기함수는 효률적으로 대기렬을 조작할수 있고 전송할《최상의》파 
케트를 빠르게 선택할수 있다. 그러나 간단히 설명하기 위해 여기서는 대기렬이 단지 소 
케 트완충기 서 술자의 목록이라고 하자. 

핵심적으로 dev _ queue_xmit () 는 다음동작을 수행한다. 

1. 망장치 구동프로그람 (이 구동프로그람의 서 술자는 소케 트완충기 서 술자의 dev 마당 
에 보관되 여있다. ) 이 전송을 대 기중인 파케트의 대 기 렬을 독자적 으로 정의 하고있는가를 
검 사한다. (Qdisc 객 체 의 주소는 net_device 객 체 의 qdisc 마당에 보관되 여 있 다. ) 

2. 소케트완충기를 대기렬에 추가하기 위해 적당한 Qdisc 객체의 enqueue 메쏘드를 
호출한다. 

3. qdisc_run 0함수를 호출하여 망장치가 대기렬에 있는 파케트를 실제로 전송하도 
록 한다. 

sys _ write () 체계호출봉사루린이 실행한 함수의 사슬은 여기서 끝난다. 지금까지 본 
것 처 럼 마지 막결 과는 망카드장치 의 전송대 기 렬 에 새 로운 파케 트를 추가하는것 이 다. 

다음의 절에서는 망카드가 파케트를 어떻게 처리하는가를 설명한다. 


제 4 절. 과케트전송과 수신 


1. 파케트송신 

망카드장치구동프로그람은 핵 심부가 새로운 파케 트를 전송대기렬에 추가하거 나 (앞 
절에서 설명한 내용) 통신통로에서 파케트를 받았을 때 실행한다. 여기서는 파케트전송 
을 기본으로 설명한다. 

앞에서 본것처럼 핵심부는 망카드장치구동프로그람을 활성화하고 싶을 때마다 
qdisc _ run () 함수를 호출한다. 이 함수는 NET _ TX_SOFTIRQ 프로그람적인 새치기를 
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실현하는 net _ tx _ action 0함수를 호출할수도 있 다. 

기본적으로 qdisc _ run () 함수는 망카드장치가 현재 작업중인가와 대기렬에 있는 파 
케트를 전송할수 있는가를 확인한다. 례를 들어 카드가 이미 전송중이거나 파케트를 받 
고있는중이 기때문에 장치가 전송할수 없다면 통신통로가 넘쳐 나는것을 방지하기 위해 대 
기렬을 잠시 멈추거나 NET _ TX _ SOFTIRQ 프로그람적인 새치기를 활성화하고 현재 실 
행중인 qdisc _ run () 을 완료한다. 시간이 지난 후에 순서짜기프로그람이 ksoftirqd 핵 
심 부스레드를 선택 하면 net _ tx _ ac 吐 on () 함수는 qdisc _ run () 을 호출하여 다시 파케트 
전송을 시도한다. 

특히 qdisc _ mn () 은 다음동작을 수행한다. 

1. 파케트대기렬이《정지되였는가》를 확인한다. 즉 net _ device 망카드객체의 state 
마당에서 적 당한 비 트가 설정되 여있는가를 확인한다. 만약 정지되 였다면 함수가 즉시 
완료한다. 

2. qdisc _ restart () 함수를 호출한다. 

이 함수는 다음동작을 수행한다. 

a . Qdisc 파케트대기렬의 dequeue 메쏘드를 호출하여 대기렬에서 파케트를 추출한 
다. 대기렬 이 비 여있으면 완료된다. 

b . 핵심부에서 파케트도청 ( sniffing ) 을 실행하고있는가를 검사한다. 실행하고있으 
면 외부로 나가는 모든 파케트의 복사본을 지역소케트로 전달한다. 이 경우 함수는 
dev _ queue _ xmit _ nit () 함수를 호출하여 이 작업을 수행 한다. 

c . 망카드장치를 나타내는 net _ device 객체의 hard _ start _ xmit 메 쏘드를 호출한다. 

d . liard _ start _ xmit 메쏘드가 파케트전송에 실패했다면 이 파케트를 다시 대기렬에 
추가한다. 

3. 대기렬 이 비여 있거 나 hard _ start _ xmit 메쏘드가 파케트전송에 실패했다면 함수는 
완료한다. 그렇지 않으면 대기렬에 있는 다음파케트를 처리하기 위해 단계 1로 되돌아 
간다. 

hard _ start _ xmit 메 쏘드는 망카드장치에 따라 다르며 파케트를 소케트완충기에서 
장치의 기 억기로 전송하는 일을 담당한다. 특히 이 메쏘드는 DMA 전송의 활성화를 스 
스로 제한한다. PCI 기반망카드에서는 적은 수의 DMA 전송을 미 리 예 약해문다. 그러고 
진행중인 DMA 전송이 끝날 때마다 카드가 자동적으로 다른 DMA 전송을 활성화한다. 

장치의 기억기가 모두 차서 카드에서 파케트를 더는 받아들일수 없다면 메쏘드는 
net _ device 객체의 state 마당에서 적당한 비트를 설정하여 파케트대기렬을 멈추도록 한 
다. 이렇게 함으로써 qdisc _ run () 함수는 완료하고 나중에 프로그람적인 새치기에 의해 
다시 실행된다. 

DMA 전송이 완료되면 카드는 새 치기를 발생시킨다. 대응하는 새 치기조종기는 다음 
동작을 수행한다. 
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1. 카드가 요구한 새치기를 승인한다. 

2. 전송오유를 검사하고 구동프로그람의 통계정보를 갱신하는 등의 작업을 수행한다. 

3. 필요하다면 raise _ sof 仕 rq () 함수를 호출하여 softirq 의 활성화를 순서짜기한다. 

4. 대기렬 이 멈 춰 있다면 net _ device 객체의 state 마당에 있는 비트를 지우고 파케 
트처리를 다시 시작한다. 

지 금까지 본것 처 럼 망카드장치구동프로그람은 디 스크장치구동프로그람과 비 슷하게 
동작한다. 실지작업 은 새 치 기조종기 와 지 연함수에 서 처 리 하며 일 반적 인 프로쎄스는 파 
케트전송을 기 다리며 차단되지 않는다. 

이 장의 대부분은 핵심부가 망파케트의 전송을 처리하는 방법을 중점적으로 설명 
한다. 이미 망환경코드의 중요한 자료구조체를 간단히 보았다. 그러므로 이제 다른 측 
면인 망파케트를 받는 방법을 보자. 

2. 파케트수신 

전송과 수신의 가장 큰 차이점은 파케트가 언제 망카드장치에 도착할것 인가를 핵심 
부가 예상할수 없다는것이다. 그러므로 파케트의 수신을 다루는 망환경코드는 새치기조 
종기 와 지 연 ( deferrable ) 함수에 서 동작한다. 

정확한 하드웨어주소(카드식별자)를 가지고있는 파케트가 망장치에 도착했을 때 일 
어나는 일련의 사건을 보자. 

1. 망장치는 장치 기억기의 완충기 에 파케 트를 보관한다. (카드는 일반적 으로 원형 완 
충기에 한번에 여러 파케트를 보관할수 있다.) 

2. 망장치는 새 치기를 발생시킨다. 

3. 새치기조종기는 파케트에 대한 새로운 소케트완충기를 할당하고 초기화한다. 

4. 새 치 기조종기는 파케트를 장치 기억기 에서 소케트완충기 로 복사한다. 

5. 새치기조종기는 자료련결프레임에 매몰된 파케트의 통신규약을 결정하기 위해 함 
수(국부망과 IEEE 802. 3의 경우 eth _ type _ trans () 함수)를 호출한다. 

6. 새치기조종기는 netif _ rx () 함수를 호출하여 Linux 망환경코드에 새로운 파케트 
가 도달했으므로 처 리해 달라고 알린다. 

물론 새치기조종기는 망카드장치에 따라 다르다. 많은 장치구동프로그람은 체계의 
다른 장치에 피해를 주지 않도록 노력하며 소케트완충기를 할당하거나 파케트를 복사하 
는 등의 시간이 오래 걸리는 작업을 지연함수에서 처리하도록 한다. 

netif _ rx () 함수는 망환경층(앞에서 언급한 망카드장치구동프로그람)의 수신코드에 
대한 핵심적함수이다. 핵심부는 망장치에서 수신해서 다양한 통신규약 탄창층에서 처리 
를 기다리는 파케트들을 위해 CPU 별 대기렬을 사용한다. 함수는 일반적으로 새로운 파 
케 트를 이 대 기렬에 추가하고 raise _ softirq () 를 호출하여 NET _ RX _ SOFTIRQ 프로그 
람적인 새치기의 활성화를 순서짜기한다. (여러 CPU 에서 동일한 softirq 를 동시에 수 
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행할수도 있다.때문에 수신한 파케트를 CPU 별 대기렬에 보관한다.) 

NEXT _ RX _ SOFTIRQ 프로그람적인 새치기는 net _ rx _ action () 함수로 실현하며 이 
함수는 다음동작을 수행 한다. 

1. 대기렬에서 첫번째 파케트를 추출한다. 대기렬에 비여있으면 완료한다. 

2. 자료련결층에서 부호화된 망층통신규약번호를 결정한다. 

3. 망층통신규약의 적당한 함수를 호출한다. 

IP 통신규약의 대응하는 함수는 ip _ rcv () 다. 

이 함수는 다음동작을 수행 한다. 

1. 파케트의 길이와 검사합을 검사한다. 만약 잘못되였거나 잘리였다면 파케트를 버 
린다. 

2 . ip _ rcv_finish 0 를 호출하여 소케 트완충기 서 술자의 목적 지 캐 쉬 ( dst _ entry 마당) 
를 초기화한다. 파케트의 경로를 결정하기 위해 함수는 경로캐쉬에서 경로를 찾아보고 
다음으로 FIB 에서 경 로를 찾아본다 . ( 만약 경 로캐쉬 에 항목이 없을 경우) 이 런 방법 으 
로 핵심부는 파케트를 다른 주콤퓨터로 전달해야 하는가, 전송층의 통신규약으로 전달해 
야 하는가를 결 정할수 있 다. 

3. 파케트도청 이나 다른 입력방책을 적용해야 하는가를 검사한다. 적용해야 한다면 
방책 에 따라 파케 트를 처 리한다. 

4. 파케트의 dst _ entry 객체의 input 메 쏘드를 호출한다. 

파케트를 다른 주롬퓨터로 전달해야 한다면 input 메쏘드는 ip _ forward () 함수를 
호출하고 그렇지 않으면 ip _ local _ deliver () 함수를 호출한다. 두번째 경우를 보자. 

ip _ local _ deliver () 함수는 데 타그람이 전달되는 과정 에서 단편화되 였을수 있기때 문 
에 원래 의 IP 데타그람을 재 조합한다. 다음으로 IP 머 리 부를 읽 고 파케 트가 속한 전송통 
신규약류형을 결정한다. 만약 전송통신규약이 TCP 라면 함수는 끝으로 tcp _ v 4_ rcv () 를 
호출하고 전송통신규약이 UDP 라면 함수는 끝으로 udp _ rcv () 를 호출한다. 

계속해서 UDP 경로를 따라가보자. udp _ rcv () 함수는 다음동작을 수행한다. 

1. udp _ v 4_ lookup () 함수를 호출하여 UDP 데타그람을 전달할 INET 소케트를 찾는 
다. ( UDP 머리부안에 있는 포구번호를 찾아본다.) 핵심부는 INET 소케트를 하쉬표로 관 
리하므로 검 색연산은 매 우 빠르게 수행 된다. 만약 UDP 데타그람이 관련된 소케 트가 없 
으면 함수는 파케트를 버리고 완료한다. 

2. udp _ queue _ rcv _ skb () 를 호출한다. 이 함수는 sock _ queue _ rcv _ skb 0를 호출 
하여 파케트를 INET 소케트의 대기렬 ( sock 객체의 receive_queue 마당)에 보관하고 
sock 객체의 data _ ready 메 쏘드를 호출한다. 

3. 소케 트완충기 와 소케 트완충기 서 술자를 해 제한다. 

INET 소케트는 data_ready 메쏘드를 sock _ def _ readable () 함수를 호출하는데 이 
함수는 기본적으로 소케트대기렬에 있는 잠든 상태의 프로쎄스를 깨운다. ( sock 객체의 
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sleep 마당에 배 렬되 여있 다. ) 

프로쎄스가 INET 소케트를 가진 BSD 소케트에서 읽을 때 발생하는 마지막단계는 다 
음과 같다. 

readO 체계호출은 소케트의 특수파일과 관련된 파일객체의 rea d 메쏘드를 실행하도 
록 한다. 이 메쏘드는 sock _ read () 함수를 호출하며 이 함수는 sock _ recvmsg () 함수를 
호출한다. sock _ recvmsg () 함수는 앞에서 설명한 sock _ sendmsg () 와 거의 비슷하다. 
이 함수는 BSD 소케트의 recvmsg 메 쏘드를 호출한다. 이 메쏘드 ( inet _ recvmsg () 함수) 
는 INET 소케트의 recvmsg 메 쏘드를 호출한다. 즉 tcp _ recvmsg 0 나 udp _ recvmsg () 
함수이 다. 

끝으로 udp_recvmsg () 함수는 다음동작을 수행 한다. 

1. skb _ recv _ datagram () 함수를 호출하여 INET 소케트의 receive_queue 대기 렬에 
서 처음파케 트를 추출하고 대 응하는 소케 트완충기서술자의 주소를 되돌린다. 대기렬 이 
비 여있다면 skt 匕 recv _ datagram () 함수는 (read 조작이 차단이 아니 라면)현재 프로쎄 스를 
차단한다. 

2. UDP 데타그람의 검 사합이 일 치 하면 전송도중 통보문이 손상되 지 않았는가를 확 
인한다. (실제로 이 단계는 단계3과 동시에 진행된다.) 

3. UDP 데타그람의 부하를 사용자방식 완충기 로 복사한다. 
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제 7장. 보안기능 

이 장에서는 보안체계의 개념과 필요성을 고찰하고 핵심부에 표준적으로 실현되여있 
는 대표적인 보안조작체계인 SELinux 를 대상으로 하여 보안의 구체적인 실현을 서술 
한다. 


제 1 절. 보안체계의 개념 

1. 보안조작체 계 의 일 반적 인 리해 

정보보안관리체계의 국제규격 인《 ISOAEC 17799》에 의하면 정보보안은 《 기밀 
성》, 《 완전성》，《 가용성》이 라고 하는 3대 요소를 간단히 묶은것 이 다. 

기밀성 - 권한이 없는 사람에게 정보가 루실되지 않는것. 정보를 도청당한 경우에는 
기밀성이 파괴되는것으로 된다. 

완전성 - 자료가 정확한 상태로 보존하는것 . 홈패지가 변경된 경우에는 완전성 이 파 
괴되는것으로 된다. 

가용성 - 허가된 리용자가 항상 필요한 정보를 호출할수 있는것 . Web 봉사기가 정 
지하고 리용자가 홈폐지 등을 호출할수 없을 때에는 가용성이 파괴되는것으로 된다. 



1) 기밀정보의 횡취 
(기 밀 성 파손) 

홈폐지변경, 체계파손 
(완전성 손실) 

2) 체 계정지(가용성파손) 

3) 봉사정지,봉사의 
효률저하 (가용성 손실) 
우편체계의 효률저하 
(가용성 손실) 


그림 7-1. 부정공격의 형대 


부정호출을 진행하는 공격자의 실체는《악의를 가진 인간(크랙커)》과 《월과 비 
루스와 같은 부정 프로그람》이 다. 월 과 비 루스는 크랙 커가 진행하는 공격 을 프로그람에 
의해 자동화한것 이라고도 생각할수 있다. 

이러한 부정호출의 수단을 분류하면 우의 그림에서처럼 《침입공격》, 《DoS 공 
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격》，《우편체계의 부정리용》의 3종류로 나눌수 있다. 

침입공격이라는것은 공격자가 보안구멍을 리용하여 름퓨터의 조종을 가로채고 홈페 
지와 체계를 파손하거 나 기밀자료를 도청하거 나 또는 그 콤퓨터를 리용하여 다른 싸이트 
에 공격 을 진행하는것 이 다. 

DoS (Denial of Service : 봉사불가능) 공격 이 라는것 은 대 량의 파케 트를 보내 는 등 
으로 하여 봉사기 가 제 공하고있 는 봉사를 정 지 시 키 는것 이 다. 

우편체계 의 부정리용이 라는것은 스광메 일을 보내거 나 메 일을 부정중계하는 공격 이 다. 
이 공격 을 받으면 봉사기의 자원 이 여 분으로 소비 되 여 버린 다. 

c . 침입공격 

Linux 에 대한 침입공격에서는 공격자는 목표로 되는 주콤퓨터의 root 권한을 가로 
젠 후 root 권한을 악용하여 파괴활동을 진행한다. 



그림 7-2. 침입공격의 동작 


우의 그림 처 럼 root 권한 가로채 기 방법 은 크게 두가지 이 다. 

하나는 root 권한으로 동작하고있는 데몬프로그람의 보안구멍을 리용하여 그 데몬프 
로그람을 가지는 방법 (직접침입공격)이 다. 례하면 sshd 와 ftpd 등은 root 권한으로 동 
작하고있 다. 이 러 한 데 몬프로그람을 가로채 는 방법 에 는 완충기 자리 넘 침 공격 이 대 표적 이 
지 만 그 외 에 도 각이 한 방법 이 있 다. 

또 하나의 방법 은 일반리 용자권한으로부터 root 권한으로《 승격》하는 방법 (간접 침 
입 공격) 이다. 

그림 의 (1) 에 서 는 일 반리 용자권 한으로 동작하고있는 데 몬프로그람의 보안구멍 을 리 
용하여 그 데몬프로그람을 가로챈다. 이 단계에서는 공격자는 아직 일반러용자권한으로 
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침 입 할수 있는데 지 나지 않는다. (느)에서 공격 자는 SUID 비트가 root 로 설정 되 여있는 
프로그람을 찾는다. SUID 비 트가 root 로 되 여 있는 프로그람이 라는것 은 일 반리 용자로부 
터 리용될 때에 일시적으로 root 권한으로 동작하는 프로그람인것이다. 례하면 passwd 
지 령을 사용하여 일반리용자는 본래의 root 밖에 호출할수 없는 통행암호파일을 바꾸어 
쓸수 있다. 이것은 passwd 지 령 이 suid 비트가 root 로 설정되 여있기때문이 다. 이 러한 
SUID 비 트가 ROOT 로 되 여있는 프로그람에 보안구멍 이 존재 하면 공격 자는 그 프로그람 
을 가로채 여 일 반리 용자권한으로부터 root 권한으로 승격 한다. 

침입공격에 대한 현재 주류의 보안대책을 묶으면 

• 패치 적 용과 갱 신 

• 방화벽의 도입 

• 통신내용과 일지의 감시와 경고 


인터네트봉사기 

(웨브봉사기, 우편봉사기，이름봉사기 등) 



그림 7-3. 침입공격에 대한 일반적인 보안대책 


이러한 대책에는 다음의 한계가 있다. 
d . 패치 적 용과 갱 신 

프로그람에 부정인자(보안구멍)이 발견될 때마다 그 프로그람에 패치(수정프로그람) 
을 적용하거나 대책후의 보다 새로운 판본으로 갱신한다. 그러나 패치의 적용은 그리 간 
단치 않다. 

보안구멍이 발견된 후 급속히 패치를 적용할 필요가 있는 경우 기존체계의 동작이 
불안정하게 될 위험성도 고려되여야 한다. 이러한것을 평가하는 품은 대단히 크다. 최근 
에는 보안구멍의 정보공개전에 공격을 받은 경우도 나타난다. 
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e . 방화벽의 도입 

방화벽의 파케트러과기능에 의해 포구번호와 IP 주소를 선별기준으로 하여 부정인 
통신을 진행하지 않게 한다. 여기서도 파케트려과를 통과하는 통신을 리용한 공격은 방 
지할수 없다. 례하면 Web 봉사기로서 외부망에 공개하고있는 체계에 대하여 포구80번을 
리용한 공격을 방지하는것은 곤난하다. 

포구번호와 IP 주소만이 아니라 통신의 본체를 검사하여 조종을 진행하는《응용프 
로그탐관문》이라고 하는 형태의 방화벽도 존재한다. 그러나 미리 등록하여놓은 공격밖 
에 방지할수 없으며 알수 없는 공격 에 는 대 처 하기 가 곤난하다. 

f . 통신내용과 일지의 감시와 경고 

구체적으로 침입검사체계 ( IDS : Intrusion Detection System ) 을 도입하여 망을 
흐르는 파케트와 봉사기의 일지를 감시한다. 공격과 비슷한 패런의 통신과 일지가 있다 
면 경보를 발생한다. 그러나 공격패런을 사전에 등록하여야 하며 등록하고있지 않은 공 
격을 검출할수 없다. 또한 이 방법에서도 알수 없는 공격은 알아낼수 없다. 

여기 에 대 처할수 있는 기술이 보안 OS 이 다. 보안 OS 에서는 OS 그 자체 를 개조하여 
root 권한을 무시함으로서 침입공격에 대처한다. 이렇게 되면 침입방법이 아무리 발전하 
여도 root 권한이 존재하지 않기때문에 공격자가 침입하여도 권한을 가로채는 일이 없어 
진다. 이 방법이라면 기존의 공격만이 아니라 알수 없는 공격에 대해서도 효과적이다. 

실지 Linux 핵심부에 보안 OS 를 표준으로 끌어들인다고 하면 아래와 같은 문제가 생 
긴 다. 


Linux 핵심부 


핵심부본체 

| 세 OS | 각종 핵심부모듈 

핵 심 부본체 에 짜넣 어 져 있 다. (치 환불가능) 


그립 7-4. 택심부에서 보안체계를 실현하는 방법 1 

우의 그림과 같이 Linux 핵심부는 핵심부 본체와 모둘로 이루어져있다. 

Linux 를 보안 OS 로 하는데는 Linux 핵심부본체에 패치를 적용할 필요가 있기때문 
에 이 대로는 한 종류의 보안 OS 밖에 Linux 핵심부의 표준으로서 끌어넣을수 없다. 

그러나 어느 1개만을 선택하는것은 아주 힘들다. 왜냐하면 개개의 보안 OS 마다에 
특징이 있으며 용도에 따라서 최적의 보안 OS 가 다르기때문이다. 례하면 높은 보안준위 
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를 요구하는 경우는 SELinux 를 사용하며 거꾸로 사용하기 쉬운것을 우선시하는 경우 
는 LIDS 를 사용한다고 하는것 처 럼 리 용자의 요구에 따라서 유연하게 선택할수 있는것 
이 편리하다. 따라서 핵심부본체에 짜넣고서는 이것을 실현할수 없다. 거기서 보안 OS 를 
Linux 의 핵심부모둘로서 실장하려고 하는 발상이 생기였다. 

핵심부모둘로 하면 핵심부본체에는 손을 댈 필요가 없기때문에 리용자는 자기가 좋 
은 보안 OS 의 모둘을 선택할수 있게 된다. 

핵심부 2. 4 에서는 보안 OS 를 모둘로서 실장하는것은 힘들지만 핵심부 2. 5 부터는 
<LSM(Linux Scurity Module )〉 이 핵심부본체에 표준으로서 넣었다. 



LSM 은 보안 OS 를 핵심부모둘로서 실장할수 있는 구조를 제공한다. LSM 에는 보안 
체계기능들로서 SELinux, LIDS, DTE, OpenWall 등이 실현되여있다. 

2. Linux 보안모듈 ( LSM ) 

체계보안을 제공하는데서 조작체계보호기구가 노는 중요한 역할을 잘 알고있지만 아 
직 현재의 조작체계들에 있는 접근조종기구들은 강력한 보안을 충분하게 제공하지 못하 
고있다. 비록 확장된 많은 접근모형들과 프레임워크들이 제안되고 실현되였어도 주류로 
되고있는 조작체계들에서는 대체로 아직 이 강화수법들을 제공하기에 부족점이 많다. 

다른 많은 일반목적조작체계들과 같이 2. 6 이전의 Linux 핵심부는 단지 임의의 접근 
조종만을 제공하며 확장된 접근조종기구들을 직접 제공하지 않는다. 그러나 Linux 는 
초보적 으로 장치 구동프로그람만이 아니 라 파일체계 와 갈은 다른 구성 부분들에 대 해서도 
동적 으로 적재 가능한 핵 심 부모둘들을 제 공한다. 원리 적 으로 확장된 접 근조종들을 각이 한 
보안모둘들에 서 실현 하여 핵 심 부모둘로서 리 용할수 있 다. 
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실천적으로 2. 6이전의 핵심부는 핵심부모둘이 핵심부객체들에 대한 접근을 조정하 
도록 어떠한 하부구조도 제공하지 않기때문에 효과적인 보안모둘을 창조하는것이 문제로 
되 였다. 결과적 으로 핵심부모둘들을 대체 로 체 계호출에 삽입하여 핵심부조작을 조종하는 
데 이것은 접근조종을 제공하는 방법으로서는 치명적인 제한을 가지고있다. 더우기 이러 
한 핵심부모둘들은 흔히 선택된 핵심부기능을 다시 실장할것을 요구하거나 핵심부에 모 
둘을 제공하는 패 치를 요구하는데 이것은 모둘구성상 불합리하다. 그때 문에 많은 보안 
프로젝 트들이 핵 심 부패 치 들과 같은 Linux 핵 심 부에 대 한 확장된 접 근조종 프레 임 워 크들 
이 나 모형들을 설치하였다. 

이 려 한 속에 서 Linux 보안모둘프로젝 트는 많은 각이 한 접 근조종모형 들을 적 재 할수 
있으며 핵 심부모둘들로서 실현될 수 있는 Linux 핵 심부용 가볍 고 일 반목적인 접 근조종프 
레 임 워 크를 개 발하였 다. POSIX . le 자격 ( capability ) 들과 SELinux , 도메 인과 형시 행 
( DTE ) 을 포함하여 여러개의 확장된 접근조종실체들이 이미 LSM 프레임워크를 리용하 
고있다. 

LSM 프레임워크는 Linux 핵심부에 최소한으로 영향을 준다면 꼭같은 Linux 핵심부 
를 가진 각이한 보안모형들을 실현할수 있다는 우점을 가지고있다. 이 일반성으로부터 
확장된 접근조종들이 핵심부패치를 요구하지 않고 효과적으로 실장될수 있게 된다. 
LSM 은 또한 POSIX . le 자격들의 현존보안기능을 기초적인 핵심부와 명백히 분리한다. 
이것은 매몰형체계개발자들과 같은 전문화된 요구를 가진 사용자들로 하여금 성능의 견 
지에서 보안특징들을 최소한으로 감소하도록 한다. 또한 그것은 POSIX . le 자격들을 기 
초적인 핵심부로부터 보다 더 독자적으로 개발할수 있도록 한다. 

보안프레 임워 크는 먼저 각이 한 Linux 보안프로젝 트들의 현재의 보안기 능을 적재가 
능한 핵심부모둘로서 어느 정도 충분히 실현하도록 하는데 중점을 두었다. 새로운 모둘 
을 설치하여도 보안을 제공하는데서 손실이 일어나지 말아야 하며 추가적으로 약간의 
처리시간 ( overhead ) 은 가질수 있다. 

이려한 대부분의 보안프로젝트들에서 핵심적인 기능은 접근조종이다. 그러나 일부 
보안프로젝트들은 또한 보안검사기록 ( auditing ) 이나 가상화된 환경과 같은 다른 종류의 
보안기능을 요구하였다. 더우기 접근조종에 대한 유연성측면에서 차이가 있다. 대부분의 
보안프로젝트들은 단지 앞으로의 제한된 접근에 주목하였다. 즉 보통 현존 Linux 의 임 
의접근조종 ( DAC ) 론리에 의해 허가되는 접근을 거부할수 있다. 그러나 일부프로젝트들 
은 보통 현존 DAC 론리에 의해 거부된 접근들을 허가할것을 요구하였다. 이 일부등급의 
허가 ( permissive ) 동작을 실현하자면 자격론리를 제공하는 모둘이 요구되였다. 일부보안 
프로젝트들은 DAC 론리를 보안모둘로 옮기 여 이것들이 그것을 대 신하도록 하였다. 

LSM 문제는 Linux 핵심부에 주는 영향을 최소화하는 한편 가능한한 많은 보안프 
로젝 트들의 기 능적 인 요구를 통일 하는것 이 다. 그러 나 요구되 는 특징 들을 결 합하는것 은 
높은 기능으로서 너무 지 나치면 현재의 일반적 인 Linux 공동체 에 접근할수 없다. 
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체 계호출대 면부는 접 근을 조정 하는데 알맞는 장소로서 사용자공간에 대 한 추상화를 
제공하여 핵심부와 상호작용한다. 사실 체계호출람색표에서 입구점들을 덧쓰기하는데는 
핵 심 부를 수정할 필 요가 없 으며 핵 심 부모둘을 리 용하여 이 대 면부를 조정 하는것 이 효률 
적이다. 

LSM 대면부의 기초적인 추상화는 내부핵심부객체에 대한 접근을 조정하는것이다. 
LSM 은 모둘들이 표제 S 가 내 부핵 심 부객 체 OBJ 에 대 하여 핵 심 부조작 OP 를 수행할수 
있는가? 라는 질문에 대 답할수 있도록 한다. 


리 용자준위 프로쎄 스 


리 용자공간 


open 체 계 호출 


핵심부공간 


inode 람색 


오유검 사 


DAC 검 사 


LSM 모둘방책 엔 진 


기《 당신에 게 OK ?》 


예 혹은 아니 


문맥 을 시 험한다. 방책 이 
통과되는가? 

승인인가? 거부인가? 


inode 접 근 


그림 7-6. LSM 후크기본방식 


LSM 은 모둘들이 그림 7-6 에서 보여준것과 같이 접근의 바로 앞에서 핵심부코드에 
후크들 ( hooks ) 을 두어 핵심부객체에 대한 접근을 조정하도록 한다. 핵심부가 내부객체 
에 접 근하기 바로 앞에 서 후크는 LSM 모둘이 제 공하는 함수에 대 한 호출을 진행한다. 
그 모둘은 접근이 허 가하거 나 혹은 접근을 거부하거 나 오유코드를 강제로 되돌리도록 할 
수 있다. 

LSM 프레임워크는 핵심부의 현존기구 ( mechanism ) 들을 리용하여 대체로 문자렬 혹 
은 단순화된 자료구조체 들과 갈은 리용자공급자료를 내 부자료구조체 로 번 역한다. 이 로 
하여 사용경 쟁 ( TOCTTOU ) 시 간과 비 효과적 인 반복람색 시 간에 대 한 검사시 간이 줄어든 
다. 또한 LSM 프레임워크가 핵심적인 핵심부자료구조체들에 대한 접근을 직접 조정하도 
록 한다. 이러한 방법으로 LSM 프레임워크는 핵심부가 실제상 요구되는 봉사를 진행하 
기 전에 핵심부문맥에 대한 접근을 진행한다. 이것은 접근조종알갱 이 ( granularity ) 를 
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개선한다. 

POSIX.le 자격론리는 조잡한 준위의 알갱이에서 보통 거부되는 접근들을 허가할것 
을 요구한다. LSM 은 이러한 론리를 제공하기 위해 이 허가적인 (permissive) 후크를 보 
안모둘로서 지원하는데 모둘은 핵심부가 거절하는 접근들을 허가할수 있다. 허가적 인 후 
크들은 대체로 간단한 DAC 검사와 결합되며 모둘이 DAC 제한을 넘어가도록 한다. 그림 
7-7 에 서 는 리 용자 ID 검 사가 허 가적 인 후크에 의해 넘 겨 질수 있는 리 용자접 근요구를 보 
여준다. 



비록 LSM 이 보안검사를 명백히 지원하도록 설계되지 않았다 하더라도 접근조종을 
제공하는 특징들을 리용하여 일부형태의 검사기록을 지원할수 있다. 실례로 많은 현존 
Linux 보안 프로젝트들은 접근검사의 기록을 자체의 접근조종들에 의해 진행한다. LSM 
도 역시 이러한 검사기록을 지원할수 있다. 일부보안검사기록은 또한 SNARE 프로젝트 
에서와 같이 체계호출에 삽입 하여 현존핵심부모둘들을 거처 지 원될수 있다. 

많은 보안모둘들에서 보안속성들을 핵심부객체들에 결합할것이 요구된다. 이것을 쉽 
게 하기 위 해 LSM 은 각이 한 내 부핵 심 부객 체 들에 불투명한 보안마당을 접 속하여 지 원한 
다. 모둘은 할당과 재할당, 동시성조종을 포함하여 이 마당들을 관리하는데 대한 책임을 
진 다. 

마지막으로 모둘구성은 LSM 설계에 대한 요구를 나타낸다. 한편으로는 명백히 보충 
적 인 기능과 일부모둘들을 구성할데 대한 요구가 제기되고있다. 다른 한편 완전히 일반 
적인 보안방책구성은 취급하기 힘든것으로 알려져있다. 그러므로 LSM 은 모둘탄창화를 
허 가하지 만 대 부분의 작업 을 모둘 그자체 에 밀 어넣 는다. 탄창화하려 고 하는 모둘은 그 
자체가 LSM 류형의 대면부를 수출 (expert) 하여야 하며 그 다음 적합한 때 적재된 모둘 
들을 호출한다. 적재된 첫번째 모둘은 모든 결정들에 대한 최종적인 조종을 가지며 언제 
다른 모둘들을 호출하며 그 결과들을 어떻게 결합하는가를 결정한다. 
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제 2 절. 보안조작체계의 실현 


체 7장. 보안이능 


1. Linux 핵심부에서 보안기능의 실현 

여기에서는 LSM 핵심부기능의 실현에 대하여 서술한다. 

LSM 은 5개 의 초보적 인 방법 들로 핵 심 부에 서 실현된다. 첫째 로, 불투명한 보안마당 
들을 어떤 핵심부자료구조체들에 추가한다. 둘째로，핵심부코드내에서 각이한 점에서 보 
안후크함수들에 호출들을 삽입 한다. 셋째 로, 일 반적 인 보안체 계호출을 서 술한다. 넷째 로, 
핵 심 부모둘들이 자체 를 보안모둘로서 등록하고 등록해 제 하도록 하는 함수들을 제 공한다. 
마지막으로 대부분의 자격론리를 선택적 인 보안모둘에 옮긴다. 

1) 불투명한 보안마당 

불투명 한 보안마당들은 void * 지 적 자들로서 보안모둘들이 보안정 보를 핵 심 부객 체 들 
과 결합할수 있게 한다. 표 7-1 에서는 LSM 핵심부패치와 해당 추상적인 객체에 의해 
수정 되 는 핵 심 부자료구조체 들을 보여 준다. 


표 7-1. LSM 핵심부패치와 해당 추상적인 객체에 의해 수정되는 핵심부자료구조체들 


구조체 

객 체 

task struct 

과제 (프로쎄 스 ) 

linux binprm 

프로 그람 

super block 

파일 체계 

inode 

관, 파일，소케트 

file 

열린 파일 

sk buff 

망완충기 (파케트) 

net device 

망장치 

kern ipc perm 

신호기，공유기 억 기 토막，통보문대 기 렬 

msg_msg 

개별적인 통보문 


이 보안마당들의 설정과 관련된 보안자료의 관리는 보안모둘에 의해 진행된다. 
LSM 은 단지 요구되는 보안마당들을 관리하기 위해 모둘에 의해 실장될수 있는 보안후 
크들에 대한 호출마당들과 묶음 ( set ) 을 제공한다. 대부분의 객체들에 대하여 해당 핵심 
부자료구조체가 할당되고 해 방될 때 보안모둘이 보안자료를 할당하고 해방하도록 하는데 
alloc _ security 후크와 free _ security 후크를 정의한다. 다른 후크들은 필요할 때 보안자 
료를 갱신하도록 한다. 실례로 post _ lookup 후크는 탐색조작이 성공한 후에 inode 에 대 
한 보안자료를 설정하는데 리용될수 있다. LSM 은 보안마당들에 대한 잠그기를 제공하 
지 않는다. 이려한 잠그기는 보안모둘에 의해 진행된다. 
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여러 객체들이 보안모듈의 초기화전에 미리 존재하기때문에 모듈이 핵심부안으로 건 
립되였다면 보안모듈은 미리 존재하는 객체를 운전하여야 한다. 이 경우 여러 방법들을 
리용할수 있다. 가장 간단한 방법은 이러한 객체들을 무시하는것인데 그것들을 모둘의 
조종밖에 있는것으로 취급한다. 이 객체들은 그 다음 기초적인 Linux 접근조종론리에 
의 해서 만 조종된다. 두번째 방법은 모듈초기 화기 간 핵 심부자료구조체 들을 넘 어 가는것 인 
데 이때에 미리 존재하는 모든 객체들의 보안마당들을 설정한다. 이 방법은 모든 객체들 
이 갱 신되 며(실례 로 열 린 파일은 프로쎄 스가 접수하기 를 기 다리 면서 UNIX 도메 인소케 트 
상에 있을수 있다.) 적당한 잠그기기 진행된다는것을 담보하여야 한다. 세번째 방법은 
리용할 때마다 미리 존재하는 객체들을 검사하는것이며 그 다음 필요한 때 미리 존재하 
는 객체들에 대한 보안마당을 설정하는것 이 다. 

2) 보안후크함수들에 대한 호출들 

앞에서 론의한것처럼 LSM 은 핵심부객체들의 보안마당들을 관리하기 위해 보안후크 
들에 대한 호출묶음을 제공한다. 그것은 또한 이 객체들에 대한 접근을 조정하기 위 해 
보안후크들에 대한 호출묶음을 제공한다. 후크함수들의 이 두 묶음은 다 같이 대역적인 
security_ops 표에 있는 함수지적자를 통하여 호출된다. 

struct security_operations { 

int (* ptrace ) (struct task_struct * parent , struct task_struct * 

child ) ； 

int (* capget ) (struct task_struct * target , 
kernel _ cap_t * effective , 

kernel _ cap_t * inheritable , kernel _ cap_t * 

permitted ) ； 

int (* capset _ check ) (struct task_struct * target , 
kernel _ cap_t * effective , 
kernel _ cap_t * inheritable , 
kernel _ cap_t * permitted ) ； 
void (* capset _ set ) (struct task_struct * target , 
kernel _ cap_t * effective , 
kernel _ cap_t * inheritable , 
kernel _ cap_t * permitted ) ； 
int (* acct ) (struct file * file ) ； 
int (* sysctl ) (struct ctl_table * table , int op ); 
int (^ capable ) (struct task_struct * tsk , int cap ); 
int (* quotactl ) (int cmds , int type , int id , struct super_block * 
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sb ) ； 

int (* quota _ on ) (struct dentry * dentry ) ； 
int (* syslog ) (int type ) ； 

int (* settime ) (struct timespec * ts，struct timezone * tz ); 
int (* vm _ enough _ memory ) (long pages ) ； 

int (* bprm _ alloc _ security ) (struct linux_binprm * bprm ); 
void (* bprm_f ree _ security ) (struct linux_binprm * bprm ) ； 
void (* bprm _ apply _ creds ) (struct linux_binprm * bprm , int 
unsafe ) ； 

void (* bprm _ post _ apply _ creds ) (struct linux_binprm * bprm ) ； 
int (* bprm _ set _ security ) (struct linux_binprm * bprm ) ； 
int (* bprm _ check _ security ) (struct linux_binprm * bprm ) ； 
int (* bprm _ secureexec ) (struct linux_binprm * bprm ); 


int (* sb _ alloc _ security ) (struct super_block * sb ) ； 
void (* sb _ free _ security ) (struct super_block * sb ); 
int (* sb _ copy _ data ) (struct file _ system_type * type , 
void * orig , void * copy ) ； 

int (* sb _ kern _ mount ) (struct super_block * sb , void * data ) ； 

int (* sb _ statfs ) (struct super_block * sb ) ； 

int (* sb _ mount ) (char * dev _ name , struct nameidata * nd , 

char * type , unsigned long flags , void * data ) ； 
int (* sb _ check _ sb ) (struct vfsmount * mnt , struct nameidata * 

nd ); 

int (* sb _ umount ) (struct vfsmount * mnt , int flags ) ； 
void (* sb _ umount _ close ) (struct vfsmount * mnt ) ； 
void (* sb _ umount _ busy ) (struct vfsmount * mnt ) ； 
void (* sb _ post _ remount ) (struct vfsmount * mnt , 

unsigned long flags , void * data ) ； 
void (* sb _ post _ mountroot ) ( void ) ； 
void (* sb _ post 一 addmount ) (struct vfsmount * mnt , 

struct nameidata * mountpoint _ nd ) ； 
int (* sb _ pivotroot ) (struct nameidata * old _ nd , 
struct nameidata * new _ nd ); 
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void (* sb _ post _ pivotroot ) (struct nameidata * old _ nd , 
struct nameidata * new _ nd ) ； 

int (* inode _ alloc _ security ) (struct inode * inode ); 
void (* inode _ free _ security ) (struct inode * inode ) ； 
int (* inode _ create ) (struct inode * dir , 

struct dentry * dentry , int mode ) ； 
void (* inode _ post _ create ) (struct inode * dir , 

struct dentry * dentry , int mode ) ； 
int (* inode _ link ) (struct dentry * old _ dentry , 

struct inode * dir , struct dentry 

* new _ dentry ) ； 

void (* inode _ post _ link ) (struct dentry * old _ dentry , 

struct inode * dir , struct dentry 

* new _ dentry ) ； 

int (* inode _ unlink ) (struct inode * dir , struct dentry * dentry ) ； 
int (* inode _ symlink ) (struct inode * dir , 

struct dentry * dentry , const char 

* old _ name ) ； 

void (* inode _ post _ symlink ) (struct inode * dir , 

struct dentry * dentry , 
const char * old _ name ) ； 

int (* inode _ mkdir ) (struct inode * dir , struct dentry * dentry , 
int mode ) ； 

void (* inode _ post _ mkdir ) (struct inode * dir , struct dentry 
* dentry , 

int mode ) ； 

int (* inode _ rmdir ) (struct inode * dir , struct dentry * dentry ) ； 
int (* inode _ mknod ) (struct inode * dir , struct dentry * dentry , 
int mode , dev_t dev ) ； 

void (* inode _ post _ mknod ) (struct inode * dir , struct dentry 
* dentry , 

int mode , dev_t dev ); 

int (* inode _ rename ) (struct inode * old _ dir , struct dentry 
* old _ dentry , 
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struct inode * new _ dir , struct dentry 

* new _ dentry ) ； 

void (* inode _ post _ rename ) (struct inode * old _ dir , 

struct dentry * old _ dentry , 
struct inode * new _ dir , 
struct dentry * new _ dentry ) ； 
int (* inode _ readlink ) (struct dentry * dentry ) ； 
int (* inode _ follow _ link ) (struct dentry * dentry , struct 

nameidata * nd ); 

int (* inode _ permission ) (struct inode * inode , int mask , struct 
nameidata * nd ); 

int (* inode _ setattr ) (struct dentry * dentry , struct iattr * attr ) ； 
int (* inode _ getattr ) (struct vfsmount * mnt , struct dentry 
* dentry ) ； 

void (* inode _ delete ) (struct inode * inode ) ； 
int (* inode _ setxattr ) (struct dentry * dentry , char * name , void 
* value , 

size_t size , int flags ) ； 

void (* inode _ post _ setxattr ) (struct dentry * dentry , char * name , 
void * value , 

size_t size , int flags ) ； 

int (* inode _ getxattr ) (struct dentry * dentry , char * name ); 


int (* inode _ listxattr ) (struct dentry * dentry ) ； 


int (* inode _ removexattr ) (struct dentry * dentry , char * name ) ； 
int (* inode _ getsecurity ) (struct inode * inode , const char * name , 
void * buffer , size_t size ) ； 

int (* inode _ setsecurity ) (struct inode * inode , const char * name , 
const void * value , size_t size , int flags ) ； 

int (* inode _ listsecurity ) (struct inode * inode , char ^ buffer , 
size_t buffer _ size ) ； 


int (* file _ permission ) (struct file * file , int mask ) ； 
int (* file _ alloc _ security ) (struct file * file ) ； 
void (* file _ free _ security ) (struct file * file ) ； 
int (* file _ ioctl ) (struct file * file , unsigned int cmd , 
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unsigned long arg ) ； 
int (* file _ mmap ) (struct file * file , 

unsigned long prot , unsigned long flags ) ； 
int (* file _ mprotect ) (struct vm _ area_struct * vma , unsigned 
long prot ); 

int (* file _ lock ) (struct file * file , unsigned int cmd ); 
int (* file _ fcntl ) (struct file * file , unsigned int cmd , 
unsigned long arg ); 

int (* file _ set _ fowner ) (struct file * file ) ； 

int (* file _ send _ sigiotask ) (struct task 一 struct * tsk , 

struct fown_struct * fown , int sig ); 
int (* file _ receive ) (struct file * file ) ； 


int (* task _ create ) (unsigned long clone_f lags ); 

int (* task _ alloc _ security ) (struct task_struct * p ) ； 

void (* task _ free _ security ) (struct task_struct * p ) ； 

int (* task _ setuid ) ( uid_t idO , uid_t idl , uid_t id 2, int flags ) ； 

int (* task _ post _ setuid ) ( uid_t old_ruid /* or fsuid */ , 

uid_t old _ euid , uid_t old _ suid , int flags ) ； 
int (* task _ setgid ) ( gid_t idO , gid_t idl , gid_t id 2, int flags ) ； 
int (* task _ setpgid ) (struct task_struct * p , pid_t pgid ); 
int (* task _ getpgid ) (struct task_struct * p ) ； 
int (* task _ getsid ) (struct task_struct * p ) ； 
int (* task _ setgroups ) (struct group_info * group _ info ); 
int (* task _ setnice ) (struct task_struct * p , int nice ) ； 
int (* task _ setrlimit ) (unsigned int resource , struct rlimit * 
new _ rlim ) ； 

int (* task _ setscheduler ) (struct task_struct * p , int policy , 
struct sched_param * lp ) ； 
int (* task _ getscheduler ) (struct task_struct * p ) ； 
int (* task 一 kill ) (struct task_struct * p , 

struct siginfo * info , int sig ); 
int (* task _ wait ) (struct task_struct * p ) ； 
int (* task _ prctl ) (int option , unsigned long arg 2, 

unsigned long arg 3, unsigned long arg 4, 
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unsigned long arg 5) ； 

void (* task _ reparent _ to _ init ) (struct task_struct * p ) ； 
void (* task _ to _ inode ) (struct task_struct * p , struct inode 
* inode ) ； 

int (* ipc _ permission ) (struct kern _ ipc_perm * ipcp , short flag ) ； 

int (* msg _ msg _ alloc _ security ) (struct msg_msg * msg ); 
void (* msg _ msg _ free _ security ) (struct msg_msg * msg ); 

int (* msg _ queue _ alloc _ security ) (struct msg_queue * msq ) ； 
void (* msg _ queue _ free _ security ) (struct msg_queue * msq ) ； 
int (* msg _ queue _ associate ) (struct msg_queue * msq , int 
msqflg ) ； 

int (* msg _ queue _ msgctl ) (struct msg_queue * msq , int cmd ) ； 
int (* msg _ queue _ msgsnd ) (struct msg_queue * msq , 

struct msg_msg * msg , int msqflg ); 
int (* msg _ queue _ msgrcv ) (struct msg_queue * msq , 
struct msg_msg * msg , 
struct task_struct * target , 
long type , int mode ) ； 

int (* shm _ alloc _ security ) (struct shmid_kernel * shp ) ； 
void (* shm _ free _ security ) (struct shmid_kernel * shp ) ； 
int (* shm _ associate ) (struct shmid_kernel * shp , int shmflg ) ； 
int (* shm _ shmctl ) (struct shmid_kernel * shp , int cmd ) ； 
int (* shm _ shmat ) (struct shmid_kernel * shp , 

char 一 user * shmaddr , int shmflg ) ； 

int (* sem _ alloc _ security ) (struct sem_array * sma ) ； 
void (* sem _ free _ security ) (struct sem_array * sma ) ； 
int (* sem _ associate ) (struct sem_array * sma , int semflg ) ； 
int (* sem _ semctl ) (struct sem_array * sma , int cmd ); 
int (* sem _ semop ) (struct sem_array * sma , 

struct sembuf * sops , unsigned nsops , int 
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alter ) ； 


int (* netlink _ send ) (struct sock * sk , struct sk_buff * skb ) ； 
int (* netlink _ recv ) (struct sk_buff * skb ) ； 


/* allow module stacking */ 

int (* register _ security ) (const char * name , 

struct security_operations * ops ); 
int (* unregister _ security ) (const char * name , 

struct security_operations * ops ) ； 


void (* d _ instantiate ) (struct dentry * dentry , struct inode 
* inode ) ； 


int (* getprocattr ) (struct 
* value , size_t size ) ； 

task_struct 

* p , 

char * name , 

void 

int (* setprocattr ) (struct 
* value , size_t size ) ； 

task_struct 

* p , 

char * name , 

void 


#ifdef CONFIG _ SECURITY_NETWORK 

int (* unix _ stream _ connect ) (struct socket * sock , 

struct socket * other , struct sock * 

newsk ) ； 

int (* unix _ may _ send ) (struct socket * sock , struct socket * 
other ); 

int (* socket _ create ) (int family , int type , int protocol , int 

kern ) ； 

void (* socket _ post _ create ) (struct socket * sock , int family , 
int type , int protocol , int kern ) ； 
int (* socket _ bind ) (struct socket * sock , 

struct sockaddr * address , int addrlen ) ； 
int (* socket _ connect ) (struct socket * sock , 

struct sockaddr * address , int addrlen ) ； 
int (* socket _ listen ) (struct socket * sock , int backlog ) ； 
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int (*socket_accept) (struct socket * sock, struct socket * 
newsock); 

void (*socket_post_accept) (struct socket * sock, 
struct socket * newsock) ； 
int (*socket_sendmsg) (struct socket * sock, 

struct msghdr * msg, int size) ； 
int (*socket_recvmsg) (struct socket * sock, 

struct msghdr * msg, int size, int flags); 
int (*socket_getsockname) (struct socket * sock) ； 
int (*socket_getpeername) (struct socket * sock) ； 
int (*socket_getsockopt) (struct socket * sock, int level, int 
optname); 

int (*socket_setsockopt) (struct socket * sock, int level, int 
optname); 

int (*socket_shutdown) (struct socket * sock, int how) ； 

int (*socket_sock_rcv_skb) (struct sock * sk, struct sk_buff * 

skb); 

int (*socket_getpeersec) (struct socket *sock, char — user 
*optval, int — user *optlen, unsigned len); 

int (*sk_al loc_security) (struct sock *sk, int family, int 
priority) ； 

void (*sk_free_security) (struct sock *sk); 

#endif /* CONFIG_SECURITY_NETWORK */ 

}； 

extern struct security_operations *security_ops; 

이 구조체는 그롭이 핵심부객체나 보조체계뿐아니라 체계조작에 대해 일부 높은 준 
위 후크들에 기 초한 후크들과 련관된 보조구조체 들의 묶음으로 구성 되 여있다. 매 개 후크 
는 핵심부객체들과 파라메터들의 용어들에서 정의되며 관심은 리용자공간지적자들을 피 
하는데 둔다. 아래에서는 LSM 핵심부코드에서 vfs_mkdir 핵심부함수를 보여준다. 

int vfs_mkdir (struct inode *dir, struct dentry *dentry, int mode) 

{ 

int error = may_create(dir, dentry, NULL) ； 
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if (error) 

return error ； 

if (! dir->i_op | | ! dir->i_op->mkdir) 
return -EPERM ； 

mode &= (S_IRWXUG 이 S_ISVTX); 

error = security_inode_mkdir(dir, dentry, mode) : 

if (error) 

return error ； 

DQUOT_INIT(dir); 

error = dir->i_op->mkdir(dir, dentry, mode); 

if (! error) { 

inode_dir_notify(dir, DN_CREATE) : 
security_inode_post_mkdir (dir, dentry, mode) : 

} 

return error ； 

} 

보안후크들은 굵은 문자로 표식하였다 . 이 핵심부함수는 새로운 등록부들을 창조하 
는데 리용된다 . 보안후크함수들에 대해 두개의 호출이 이 함수에 삽입된다 . 첫번째 후크 
호출인 security_inode_mkdir 는 새로운 등록부들을 창조하는 능력을 조종하는데 리용 
될수 있다 . 후크가 오유상태를 되돌리면 새로운 등록부가 되돌려지며 오유상태는 호출자 
에게 전달된다 . 두번째 호출인 security_inode_post_mkdir 는 새로운 등록부의 inode 
구조체에 대한 보안마당을 설정하는데 쓰일수 있다 . 이 후크는 단지 보안모둘의 상태를 
갱신할수 있으며 되돌이상태에 영향을 주지 않는다 . 

LSM 이 또한 후크호출을 Linux 핵심부 permission 함수에 삽입한다하더라도 
permission 후크로는 파일생성조작을 조종하는데 불충분하다 . 왜냐하면 조작의 형과 새 
로운 파일의 이름과 방식과 같은 잠재적으로 중요한 정보가 부족하기때문이다 . 류사하게 
Linux 핵심부 may_create 함수에 후크호출을 삽입하는것은 조작의 형과 방식에 대한 명 
백한 정보가 여전히 부족하기때문에 불충분하다 . 그렇기때문에 후크가 해당 inode 조작 
과 갈은 대면부와 함께 삽입된다 . 

이 두개의 후크들을 vfs_mkdir 에 삽입하기 위해 dir->i_op->mkdir 호출에 끼워 넣 
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는다 . 내부핵 심부대 면부들에 끼워넣 으면 일부 LSM 후크들에 대 하여 동등한 기능을 제공 
한다 . 그러 나 이 렇게 삽입하면 더 일반적 인 많은 기능을 핵 심부모둘을 통하여 실장할수 
있게 한다 . 핵심부모둘들은 력 사적 으로 GPL 과 다른 특허를 리 용하도록 되 여있기때 문에 
삽입에 기초한 수법은 Linux 핵심부개발자들이 LSM 을 받아들이는데서 도전에 부닥치게 
한다 . 

3) 보안체계호출 

LSM 은 일반적인 보안체계호출들을 제공하여 보안용응용프로그람들에 대한 새로운 
호출들을 실장하도록 한다 . 비록 모둘들이 /proc 파일체계을 통하여 혹은 새로운 가상파 
일체계형을 정의하여 정보와 조작들을 수출할수 있다 하더라도 이러한 수법은 일부 보 
안모둘들의 요구에 대하여 볼 때 불충분하다 . 실례로 SELinux 모둘은 여러개의 현존 
체 계 호출들의 확장된 형 태 들을 제 공하여 응용프로그람들로 하여 금 핵 심 부객 체 들과 조작 
들과 련관된 보안정보를 구별하거나 포함할수 있도록 한다 . 

security 체계 호출은 현존 Linux socketcall 체계 호출 다음으로 다양하고 간단한 형 
태 로 되 여있 다 . 모둘은 체 계 호출의 실장을 정 의 하기 때 문에 파라메터 들을 해 석 하여 요구 
하는것을 선택한다 . 이 요소들은 모둘식별자 , 호출식별자，요소배 럴과 같은 모둘들에 의 
해 해석되게 된다 . 기정적으로 LSM 은 그 파라메터들로서 sys_security 후크를 간단히 
호출하기 위 해 sys_security 입구점 함수를 제공한다 . 어떤 새로운 호출들을 제공하지 않 
는 보안모둘은 ENOSYS 을 되돌리는 sys_security 후크함수를 정의할수 있다 . 새로운 
호출들을 제공하려고 하는 대부분의 보안모둘들은 자기들의 호출실장을 이 후크함수에 
둘수 있다 . 

일부경우에 LSM 이 제공하는 입구점함수는 보안모둘에 대 하여 불충분하다 . 실례 로 
SELinux 가 제공하는 새로운 호출들중의 하나는 탄창에 대한 등록기들에 접근하려고 
한다 . SELinux 모둘은 그 자신의 입구점함수를 실장하여 이러한 접근을 하도록 하며 
모둘초기 화기 간 체 계호출표에 서 이 함수로서 LSM 입 구점함수를 대 신한다 . 

4) 보안모듈의 등록 

LSM 프레임워크는 전통적인 UNIX 초사용자의미를 가진 빈 후크함수들의 묶음으로 
핵심부의 순차적인 부트기간에 초기화된다 . 보안모둘이 적재되면 register_security 함 
수를 호출하여 LSM 프레 임워크로서 그자체를 등록하여 야 한다 . 

int register_security (struct security operations *ops) 

{ 

if (verify(ops)) { 

printk(KERN_DEBUG "%s could not verify " 

"security_operations structure. \n", _FUNCTION_); 
return -EINVAL; 
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if (security_ops != &dummy_security_ops) 
return -E AG AIN; 

security_ops = ops ； 

return 0 ； 


이 함수는 대역적인 security_ops 표를 설정하여 모둘의 후크함수지적자들을 참조하 
며 핵심부는 접근조종결정에 대한 보안모둘들에 호출한다 . register_security 함수는 앞 
서 적재된 모둘을 덧쓰기하지 않는다 . 일단 보안모둘이 적재되면 그것은 그자체가 부리 
워지도록 하는지 에 대 한 방책결정 으로 된다 . 

보안모둘이 부리워지면 unregister_security 를 리용하여 프레임워크로서 등록해제 
하여 야 한다 . 

int unregister_security (struct security—operations *ops) 

{ 

if (ops != security_ops) { 

printk (KERN—INFO "%s ： trying to unregister " 

"a security_opts structure that is not " 

"registered, failing.\n", —FUNCTION—); 
return -EINVAL ； 


security_ops = &dummy_security_ops : 
return 0 ； 


이것은 단순히 기정후크로 후크함수들을 교체하며 따라서 체계는 여전히 보안을 위 
한 일부 기본적인 수단들을 가지게 된다 . 모둘이 불투명한 마당들을 재설정하는 쓸데없 
는 작업을 한다면 기정후크함수들은 불투명한 보안마당들을 리용하지 않으며 따라서 체 
계의 보안은 손상되지 않는다 . 
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방책의 일반적인 구성은 까다롭다 . 제멋대로한 방책구성으로 하여 정의되지 않은 결 
과가 나타나면 정의된 결과로 되도록 구성할수 있는 보안모둘을 개 발하는것 이 가능하다 . 
프레임워크를 단순화하기 위해서 기정이나 등록된 모둘 즉 초기의 모둘중 어느 하나의 
모둘만을 인식한다 . 보안모둘은 mod_reg_security 대면부를 리용하여 그자체를 직접 초 
기의 모둘로서 등록할수 있다 . 

int mod_reg_security (const char *name, struct security_operations *ops) 

{ 

if (verify(ops)) { 

printk(KERN_INFO "%s could not verify " 

"security operations. \n", _FUNCTION_); 
return -EINVAL ； 


if (ops == security_ops) { 

printk(KERN_INFO "%s security operations " 

"already registered. \n", _FUNCTION_); 
return -EINVAL; 

} 


return security_ops->register_security(name, ops); 

} 

이 등록은 초기의 모둘로서 조종되며 따라서 모둘탄창화를 허용하는지는 방책이 결 
정한다 . 이 간단한 대면부로서 프레 임워크에서 기초적인 탄창화를 복잡하지 않게 제공 
할수 있다 . 

4) 자격들 

Linux 핵심부는 현재 POSIX.le 자격들의 보조묶음을 지원한다 . LSM 프로젝트에 대 
한 요구들중 하나는 앞에서 언급한것처 럼 이 기능을 선택적 인 보안모둘로 옮기는것 이 다 . 
POSIX.le 자격은 전통적인 초사용자특권을 구분하고 개별적인 프로쎄스들로 그것들을 
지적하는 기구를 제공한다 . 

본질적으로 특권허가는 보통 거부된 접근을 허가하기때문에 접근조종의 허 가적 인 형 
태이다 . 결과적으로 LSM 프레임워크는 적어도 Linux 자격실장과 같은 과립도로서 허가 
적인 대면부를 제공하여야 한다 . LSM 은 자격검사를 진행하는 현존 capable 대면부를 핵 
심 부내 에 서 리 용하지 만 capable 함수를 LSM 후크용의 간단한 외 피 (wrapper) 로 축소하 
여 어떤 요구되는 론리가 보안모둘에 실장되도록 한다 . 이 수법은 LSM 이 capable 에 
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관한 여 러개의 (500 이상) 현존핵 심부호출들을 러용하며 핵 심부에 대 해 변화가 전파되는 
것을 피하도록 한다. LSM 은 또한 후크들을 정의하여 다른 형태의 자격검사와 자격계산 
에 대한 론리를 보안모둘내에서 교갑화한다. 

int cap_capable (struct task_struct * tsk , int cap ) 

{ 

/* Derived from include / linux / sched . h ： capable . */ 
if ( cap _ raised ( tsk -> cap _ effective , cap )) 
return 0； 
return - EPERM ； 

} 

간단한 비트벡토르인 프로쎄스자격 묶음은 task_struct 구조체에 보관된다. LSM 은 
불투명한 보안마당을 task_stmct 와 마당을 관리하는 후크들에 추가하기때문에 현존 
비트백토르를 그 마당으로 옮기는것이 가능해진다. 이려한 변화는 LSM 프레임워크에서 
는 론리적이지만 다른 모둘들과 함께 탄창화를 쉽게 하기 위해 실장되지 않는다. LSM 
프레 임 워 크에 서 보안모둘을 탄창화하는 난관중 하나는 불투명한 보안마당들을 공유할데 
대한 요구이다. 자격론리가 얼마동안 주류의 핵심부에로 통합되고 named 와 sendmail 
과 같은 일부응용프로그람들이 그에 의존하기때문에 많은 보안모둘들을 자격모둘로서 탄 
창화하려고 한다. task_struct 에 자격비트백토르를 남기면 그것을 리용할 펼요가 없는 
쓸모없는 모둘들의 공간측면에서 이러한 구성이 쉬워진다. 

자격들에 대한 Linux 핵심부지원기능에는 또한 capset 와 capget 와 같은 두개의 체 
계호출이 포함된다. 현존응용프로그람들과의 호환성을 유지하기 위해 LSM 은 이 체계호 
출들은 유지하지만 이 함수들에 대한 핵심부자격론리는 LSM 후크들에 대 한 호출에 의해 
교체되였다. 결국 이 호출들은 security 체계호출을 통하여 재실장되여야 한다. 이 변화 
는 자격용으로 적합한 대면부가 이 호출들을 직접 리용하기 보다는 libcap 서고를 통하 
여 리용하기때 문에 응용프로그람에 작은 영 향을 주어 야 한다. 

LSM 프로젝트는 자격보안모둘을 개발하였으며 많은 핵심부자격론리를 그안에서 조 
정한다. 그러나 핵심부는 여전히 이미 존재하는 Linux 자격들의 흔적을 보여준다. 
task_struct 로부터 불투명 한 보안마당들에 로 비 트벡 토르들을 옮기 고 채 계 호출대 면부를 
재지정하면 자격모둘에는 완전히 표준적인 기본단계들만이 남게 된다. 

5) 과계후크들 

LSM 은 보안모둘들이 프로쎄스보안정보를 관러할수 있으며 프로쎄스조작을 조종할 
수 있는 한 묶음의 과제후크들을 제공한다. 모둘들은 task_struct 구조체의 보안마당을 
리용하여 프로쎄스보안정보를 유지할수 있다. 과제후크들은 kill 과 같은 프로쎄스간조작 
들에 대한 조종뿐아니라 setuid 와 같은 현행프로쎄스에 대한 특권적인 조작들에 대한 
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조종을 지원한다. 과제후크들은 또한 setrlimit 와 nice 와 같은 자원관리조작들에 대한 
미립도의 조종을 제공한다. 

6) 프로그람적재후크 

Linux 자격들과 DTE , SELinux , SubDomain 을 포함하여 많은 보안모듈들은 새 
로운 프로그람이 실행될 때 특권을 변화시킬수 있도록 할것을 요구한다. 결과적으로 
LSM 은 execve 조작을 처 리 하는 기 간에 한계 점 이라고 불리 우는 한조의 프로그람적 재 후 
크를 제공한다. liniix_binprm 구조체의 보안마당은 모듈들이 프로그람이 적재되는 동안 
보안정보를 유지하게 한다. 

struct linux _ binprm { 

char buf [ BINPRM _ BUF _ SIZE ] ； 

struct page *page [ MAX _ ARG _ PAGES ] ； 

struct mm_struct * mm ; 

unsigned long p ； /* current top of mem */ 

int sh _ bang ; 

struct file * file ； 

int e _ uid , e _ gid ； 

kernel _ cap_t capjnheritable , cap _ permitted , cap _ effective ； 
void * security ； 
int argc , envc ； 

char * filename ； /* Name of binary as seen by procps */ 
char * interp ； /* Name of the binary really executed . Mos 

t 

of the time same as filename , but could be 
different for binfmt _{ misc , script } */ 

unsigned interp _ flags ； 
unsigned interp _ data ； 
unsigned long loader , exec ； 

}； 


첫번째 후크는 보안모듈들이 이 보안정보를 초기화하도록 하고 프로그람을 적재하는 
것보다 먼저 접근조종을 수행하도록 하며 두번째 후크는 새로운 프로그람이 성과적으로 
적재된 후에 모듈들이 과제보안정보를 갱신하도록 한다. 이 후크들은 또한 프로그람실행 
후 상태에 대한 정보를 조종하는데 리용할수 있다. 실례로 열린파일서술자들을 다시 유 
효하게 하는것 등을 들수 있다. 
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보안모둘은 보안정보를 관리하며 LSM IPC 후크들을 리용하여 System V IPC 에 


대한 접근조종을 

진행 할수 

있 다. 

IPC 객체 자료구조체들은 

일 반적 인 보조구조체 인 

kern _ ipc_perm 을 

공유하며 

이 보조구조체에 대한 지적자만을 

허가속성을 검사하는 현 

존 ipcperms 함수에 

넘긴다. 

이 때 문에 

LSM 은 보안마당을 이 공유된 구조체에 추가한다. 

개별적인 통보문들에 대한 보안정보를 

제공하기 위해 LSM 은 

또한 msg _ msg 구조체 에 

보안마당을 추가한다. 




struct kern _ ipc_perm 

j 




i 

spinlock_t 

lock ； 




int 

deleted ； 



key_t 

key ; 




uid_t 

uid ； 




gid_t 

gid ； 




uid_t 

cuid ； 




gid_t 

cgid ； 




mode_t 


mode ； 



unsigned : 

long 

seq ； 



void 

^ security ; 




}； 


struct msg_msg { 

struct list-head m _ list ； 
long m _ type ； 

int m _ ts ； /* message text size */ 

struct msg _ msgseg * next ； 
void * security ； 

/* the actual message follows immediately */ 


LSM 이 후크를 현존 ipcperms 함수에 삽입하므로 보안모둘은 매개의 현존 
LinuxIPC 허가속성에 대한 검사를 진행 할수 있다. 그러나 이 검사들은 일부보안모둘들 
에 대하여서는 충분하지 않음으로 LSM 은 또한 후크들을 개별적인 IPC 조작들에 삽입한 
다. 이 후크들은 조작의 형과 명시적인 요소들에 대한 더 상세한 정보를 제공한다. 그것 
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들은 또한 System V 통보문대기렬을 통하여 보내진 개별적인 통보문들에 대한 세밀한 
조종을 제공한다. 

8) 파일체계후크들 

파일조작에 대해서는 3개 묶음의 후크들 즉 파일체계후크들, inode 후크들, 파일후 
크들이 정의되여있다. LSM 은 보안마당을 super _ block , inode , file 과 같은 결합된 
핵 심 부자료구조체 들에 추가한다. 파일체 계 후크들은 보안모듈들이 태 우기 와 statfs 와 같 
은 조작들을 조종할수 있도록 한다. 그것에 inode 후크들을 삽입하여 현존 permission 
함수를 다루지만 LSM 은 또한 여러 다른 inode 후크들을 정의하여 개별적인 inode 조작 
들에 대해 더 세밀한 조종을 하도록 한다. 일부 파일후크들은 보안모둘들이 rea d 와 
write 와 같은 파일조작들에 대한 추가적인 검사를 진행하도록 한다. 후크는 또한 보안 
모둘들이 소케트 IPC 를 통하여 열린파일서술자들의 접수를 조종하도록 하기 위해 지원된 
다. 다른 파일후크들은 fcntl 과 ioctl 과 같은 조작에 대 해 더 세밀한 조종을 제 공한다. 

inode 와 super _ block 에 보안마당들을 두면 dentry 와 vfsmount 구조체들에 그것 
들을 두는것으로 된다. inode 와 super _ block 구조체들은 실제적인 객체들에 대응하며 
names 와 namespaces 와는 독립이다. dentry 와 vfsmount 구조체들은 해당 inode 와 
super _ block 에 대한 참조를 포함하며 개별적인 이름이나 이름공간들과 결합된다. 첫번 
째 쌍의 구조체들을 리용하면 객체별명 에 의해 생기는 결과들을 피할수 있다. 이 구조체 
들이 또한 관들과 소케트들과 갈은 비파일객체들을 표현하기때문에 이 구조체들을 리용 
하면 핵심부객체들의 코드범위가 더 많아진다. 이 자료구조체들은 또한 파일체계코드에 
서 임의의 점에서 쉽게 사용할수 있으며 한편 두번째 묶음의 구조체들은 흔히 사용할수 
없다. 

9) 망후크들 

한묶음의 소케 트후크들을 리 용하여 망환경 에 대 한 응용프로그람층접 근을 조정 한다. 
이 후크들은 모든 소케트체계호출들에 대해 끼워넣기를 하여 모든 소케트기초의 통신규 
약들에 대해 일괄적인 조정을 진행한다. 능동적인 러용자소케트들은 련관된 inode 구조 
체를 가지고있기때문에 분리된 보안마당은 socket 구조체나 낮은 준위의 sock 구조체에 
추가되 지 않는다. 소케 트후크들이 프로쎄 스들과의 관련속에 일 반적 인 망통화량를 조정 하 
게 하면 LSM 은 핵심부의 망접근조종프레임워크를 확장할수 있다. 실례로 
sock _ rcv _ skb 후크는 경계내의 파케트가 련관된 리용자공간소케트에 대기하기에 앞서 
그의 목적지응용프로그람에 관하여 조정되도록 한다. ip v 4， UNIX 도메인과 Nedink 통 
신규약들에 대하여 추가적인 후크들이 실장되였다. 

망자료는 sk _ bu 打(소케트완충기)구조체에 의해 교갑화된 파케트에 있는 탄창을 통 
과한다. LSM 은 sk _ buff 구조체 에 보안마당을 추가하여 매 개 파케트에 기초하여 망층을 
통과하여 보안상태를 관리할수 있게 하였다. 한 묶음의 sk _ buff 후크들이 이 보안마당의 
생 명 주기 관리 를 위 해 제 공된 다. 
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하드웨어와 쏘프트웨 어망장치들은 netdevice 구조체에 의 해 교갑화된다. 이 구조체 
에 보안마당을 추가하여 매개 장치에 기초하여 보안상태를 관리할수 있게 되였다. 

10) 다른 후크들 

LSM 은 모둘후크들과 한조의 꼭대 기 준위 체 계후크들이 라는 두개 의 추가적 인 묶음의 
후크들을 제 공한다. 모둘후크들은 핵 심부모둘들을 생성 하고 초기 화하고 삭제 하는 핵 심 
부조작들을 조종하는데 리용될수 있다. 체계후크들은 체계호스트이름의 설정과 I 八)포구 
들에 대 한 접근, 프로쎄스계정의 구성과 같은 체 계조작들을 조종하는데 리용될수 있다. 
현존 Linux 핵심부는 자격검사를 러용하여 이 많은 조작들에 대하여 일부조종을 제공하 
지만 그 검사들은 단지 각이한 조작들중에서 조잡한 구별을 진행하며 일부요소정보는 제 
공하지 않는다. 

2. SELinux 의 접근조종 

보안 OS 의 가장 기본으로 되는 기능이 접근조종기능이다. 보안 OS 는 기초로 되는 
◦ S 의 접근조종부분을 개량하여 보안을 높이고있다. SELinux 에서는 Linux 핵심부의 
권한검사부분(코드)을 개조하고 보다 엄격하게 권한을 설정할수 있게 하고있다. 

보안 OS 의 접근조종은 아래와 같은 3개의 요소로부터 설정하고있다. 


Linux 봉사기 



그림 7-8. S 티」마대의 보안기능 


g . 강제접근조종 ( MAC ) 

Linux 에서는 파일의 소유자가 그 파일의 권한을 설정 하게 되 여있다. 

이것을 DAC(Discretionary Access Control : 임의의 접근조종)라고 한다. 
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DAC 에서는 파일의 소유자가 자유로 권한을 변경할수 있기때 문에 체 계 전체의 보안 
설정 을 일 원적 으로 관리 하기 힘 들다. 례하면 홈폐 지 의 HTML 파일의 소유권을 가진 리 
용자는 관리 자만 제 외 하고 그 파일 을 누구에 도 읽 기 쓰기가능하게 설정할수 있 다. 

이에 대해 MAC 에서는 자원의 접근조종에 관한 설정파일을 1개 준비하고 (이것을 
보안방책 파일 이라고 한다. )그 설정 을 변경할수 있는것 은 보안관리 자뿐이 다. 

따라서 MAC 에서 는 보안관리자는 접 근조종에 관한 설정 을 1개의 파일로 집 중관리 
하고 그 설정을 기계전체에 철저하게 할수 있다. 

h . 매 프로쎄스의 접근조종기능 

종래의 Linux 에서는 root 권한을 가진 프로쎄스는 모든 조작을 진행할수 있다. 

이에 대해 SELmux 에서는 root 권한은 없으며 프로쎄스마다에 독자의 권한을 가지 
게 할수 있다. 실례로 아래그림에서는 Apache 에는 홈페지에 대한 읽기허가밖에 주어져 
있지 않다. 마찬가지로 BIND 에는 존 ( zone ) 파일에 대한 읽기허가밖에 주어져있지 않다. 
그때문에 이것이외의 파일에는 호출할수 없다. 

이에 의해 만일 그림의 (1 )root 로 침입을 허가하여도 보안 OS 에서는 root 권한이 
존재하지 않기때문에 침입자는 한정된 권한밖에 가로챌수 없다. 


Apache 


호출불가능 


보안조작체계를 도입한 봉사기 


홈폐지 


zone 파일 


체 계 파일 


그림 7-9. 매개프로쎄스에 대한 접근조종실례 


i . 권한승격의 조종 

Linux 에서는 보통 SUID 가 root 로 된 프로그람을 통하여 일반리용자의 권한으로 
부터 root 권한으로 승격할수 있게 된다. 또한 이러한 프로그람의 권한은 모든 리용자에 
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대 하여 실행 가능으로 되 여있는것 이 많기때문에 악용이 쉽다. 이 에 대 해서 보 OS 에서는 
불필요한 권한의 승격을 우의 그림에서처럼 일체 금지하고있다. 

1) 보안방책 

우선 접근조종에 대하여 보기로 하자. 접근조종의 참조모형의 구성요소들로서는 표 
제 ( subject ) 와 오브젝 트 ( object ) ， 규칙 기 지 ( RuleDB ) 로 되 여 있 다. 

표제는 실행프로그람과 같이 능동적인 실체를 나타내며 오브젝트는 파일과 포구，기 
억기와 장치와 같은 자원과 정보를 담는 그릇을 말한다. 규칙기지는 실현되여야 하는 방 
책을 말한다. 표준적인 Linux 에서 표제는 오브젝트에 대하여 접근시도를 할 때 규칙기 
지의 보안방책에 따라 그 접근여부를 묻는다. 이것이 참조유효성기구 ( RVM:Reference 
Validation Mechanism ) 에 의 해 실현된다. 


(〔크 ) 

프로쎄 스들 



그림 7-10. 표준적인 리눅스핵심부의 접근조종 


RVM 은 고정되 여있으며 핵심부에 실현되 여있다. 표제는 프로쎄 스를 나타내며 오브 
젝트는 파일과 등록부，관, 장치를 나타낸다. 프로쎄스는 실제적이며 유효한 리용자와 
그룹 ID 를 가진다. 

파일 체 계 에 서 오브젝 트는 inode 로 관리 하며 여 기 에 다음과 같은 접 근방식 이 있 다. 



-► 리용자나 그룹의 허가속성이 아니 다. 

-► 그룹의 허가속성으로서 리용자의 허가속성은 아니다. 
-► 리용자의 허가속성 


규칙기지는 고정되 며 핵 심부에서 하드코드화된 다. 대체로 서술자생성 보다는 열기 에 
서 검사된다. 

SELinux 에서는 핵심부가 확장되여 보안방책이 동적으로 핵심부에 적재된다. 이에 
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따라 프로쎄 스의 체 계호출때 에 접 근조종이 진행 되 게 된다. 

접근조종의 형태는 크게 3가지이다. 

일반적인 접근조종 

표제와 오브젝트는 보안속성을 가전다. 접근은 보안방책규칙에 기초하여 결정된다. 

임의의 접근조종 

리 용자들은 요구에 따라 보안속성 을 변화시 킬수 있다. 리 용자쪽에서 실행하는 프로 
그람은 접근규칙의 결과에 영향을 미칠수 있도록 되여있다. 

강제접근조종 

리 용자들은 요구에 따라 보안속성 들을 변화시 킬수 없 다. 리 용자프로그람은 접 근규칙 의 
강요내 에서 작업하여 야 한다. MAC 접근규칙은 리용자가 아니라 조직에 의 해 조종된다. 

임의의 접근조종방법은 리용자와 프로그람들사이의 차이를 식별하기가 힘들다. 프로 
쎄스는 리 용자대 응물이며 임의의 코드를 실행할수 있다. 프로쎄 스들은 접근조종속성 들을 
변화시킬수 없다. DAC 는 일반적으로 친절한 쏘프트웨어환경을 요구한다. 리용자는 친 
절한 환경에서 마음대로 행동하게 된다. 

결과 예견치 않았던 일이 생길수 있다. 우선 트로이목마와 같이 악의를 가전 쏘프트 
웨어를 열수 있다. 그리고 오유가 가능한한 최대의 특권에로 확대될수 있다. 지어 《믿 
는》리용자오유를 막지 못한다. 

강제접근조종에는 다음과 같은 형태들이 있다. 

벨-라과둘러 ( Bell - LaPadula ) 방책 -다중준위 보안 

접근조종속성들에는 계층적 인 보안준위 , 비계층적 인 범주들의 묶음이 있다. 

고정 규칙들은《 올려읽 기 금지，내 러 쓰기 금지》이 다. 
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비 바 ( Biba ) 완전성 모형 

접 근조종속성 에는 계 층적인 완전성준위 , 비계 층적인 완전성범 주들의 묶음이 있 다. 
고정된규칙들은 《 올리쓰기금지 , 내 리읽기금지》이 다. 정 확히 BLP / 다중준위보안과 
반대 이 다. 



BLP 와 Biba 는 공통적으로 MAC 가 실현된다. 대표적으로 둘다 함께 실현되는데 엄 
밀하고 유연하지 못하다. 우의 MAC 방책들외에도 상업적인 강제보안에 쓰이는 중국벽 
(Chinese Wall ), 분리핵심부인 비간섭 ( non - interference ) , 일부역할에 기초한 접근조 
종방책들이 있다. 

2) 보안문맥 

SELinux 는 표제와 오브젝트들에 대하여 보안문맥를 제공한다. 

root : sysadm _ r : sysadm_t 

root ： 리용자식별자 

sysadm _ r : 역할식별자 

sysadm _ t : 형식별자 

보안문맥은 SELinux 에서 단지 접근조종속성이다. 보안식별자 ( SID ) 는 핵심부내에 
서 능동인 보안문맥를 나타내는 수자이 다. 원래 표준 Linux 에서는 표제 (프로쎄스)접근조 
종속성들로서 실제적 이고 유효한 리용자와 그롭 ID 들을 리용하며 오브젝트접 근조종속성들 
로서 파일접 근방식 (rwx r-x r - x ) 와 려 용자와 그룹 ID 들을 리 용한다. SELinux 에 서 는 
프로쎄스의 형을 또한《도메인》이라고도 한다. 역할 ( role ) 은 도메인형들을 련관된 그 
룹들로 결합하여 그것들을 리용자들로 나타낸다. 
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러용자——►역할 ——►도메인형 ——►오브젝트형 
보안문맥를 보려면 다음의 지령을 리용한다. 현재의 월에서 ki 지령의 뒤에 一 context (- 
公를 추가하여 보안문맥를 확인해볼수 있다. 

파일 관련지 령 Is 에는 一 lcontext , — context (- Z ) , — scontext 를 추가한다. 

프로쎄스관련지령 ps 에는 一 context (- Z ) 를 추가한다. 

파일보안문맥변경을 다음의 지령을 리용한다. chcon 지령은 문맥로서 파일의 보안문 
맥를 변화시킨다. 


실례로 

chcon system _ u : object _ r : shadow_t / tmp/foo 

라고 할수 있다. setfile 지령은 체계설치를 위해 준비된것으로서 자료파일을 리용하 
여 전체 체계를 재표식 ( relabel ) 한다. install 과 cp 에는 뒤 에 Z ( context ) 를 붙인다. 

새로운 문맥에서 프로그람의 실행은 다음과 같이 한다. 새로운 보안문맥에서 
runcon 지령은 프로그람을 실행한다. 전체 문맥를 변화시키거나 다음과 같은 항목으로 
문맥의 부분을 변화시킨다. 

-t : 현재의 형을 명시된 형으로 변화시킨다. 

-r : 현재의 역할을 명시된 역할로 변화시킨다. 

-u : 현재의 리용자를 명시된 리용자로 변화시킨다. 

3) 형시행과 역할 

형 시 행 (Type Enforcement ) 접 근조종은 표제 형 (도메 인)과 오브젝 트형 사이 에 접 근을 
서술하며 접근허가를 정의하는데 다음 4개의 요소를 리용한다. 

원천형 아카 ( aka ) 도메인 

목표형 접근이 허가된 오브젝트 

오브젝트콜라스 접근이 적용하는 콜라스 
허가속성 접근허가에 대한 속성 

SELinux 는 30개의 오브젝트클라스들을 정의한다. 
security , process , system , capability , 

file , dir , fd , lnk _ 

chr _ file , blk _ file , sock _ file , 

socket , tcp _ socket , udp _ socket , msgq , 
msg , shm , ipc , node , 

netlink _ socket , packet _ socket , key _ socket , 

_ stream _ socket , u nix_dg ram _ socket , 

그것들 자체마다에는 더 엄밀히 나뉘여진 허가속성들이 있다. 

라스는 19개 허가속성을 가지고있다. 


filesystem , 

file , 

fifo _ file , 

sem , 

netif , 

rawip _ socket , unix 
passwd 

실례로 file 오브젝트클 


ioctl read write create getattr 
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setattr lock relabelfrom relabelto append 

unlink link rename execute swapon 

quotaon mounton execute_no_trans entrypoint 

간단한 실례 로 형 시 행 (TE) 상태 를 보기 로 하자. 

allow user_t bin_t : file { read execute }; 

user_t 는 도메인형이며 bin_t 는 오브젝트 형, file 은 오브젝트 들라스를 나타낸다. 그 
리고 read execute 는 허가속성이다. 이것은 형 user_t^ 가진 프로쎄스는 형 bin_t^ 
가진 file 들을 읽거 나 실행할수 있다는 것을 나타낸다. 아래 에서는 passwd 프로그람을 
실례를 들어 고찰한다. 

allow passwd_t shadow_t : file 

{ create ioctl read getattr lock write setattr append link unlink renam 

e } : 

passwd_t 도메인형을 가진 프로쎄스들은 shadow_t 형을 가진 파일들에 읽기, 쓰기， 
창조접근을 할수 있다. passwd 프로그람은 passwd_t 형으로 실행하는데 그것은 그림자 
통행 암호파일 (/etc/shadow) 을 변화시 킬수 있다. 그림 자통행 암호파일의 속성 은 다음과 
같다. 


root root system_u : object_r : shadow_t /etc/shadow 
I - 和 SELinux 

단지 passwd_t 도메 인 (우의 허 가규칙 에서)만이 
파일을 수정할수 있다. 


- 卜 표준 Linux 

단지 root 만이 파일의 새로운 복사물을 
창조할수 있다. 

Linux 체 계 의 리 용자들은 체계를 리 용할 때 아무 때 나 자기의 통행암호를 변화시 킬 
수 있어야 한다. 즉 uid 와 euid 가 pak 이라는 가입자는 도메인형이 user_t 이며 bash 파 
일을 다룬다. 이 때 통행 암호를 변경 하려 면 euid 가 root 이 고 도메 인형 이 passwd_t 인 
passwd 파일을 통해서 도메인형이 shadow_t 인 /etc/shadow 파일에 대하여 창조와 쓰 
기 속성 을 가지 고 통행암호를 변경 할수 있 어 야 한다. 이 와 같이 통행암호를 변경 시 키 는 
경우를 비롯하여 많은 경우 도메인이행문제가 제기된다. 

그러면 표준 Linux 에서는 이 문제를 어떻게 해결하는가를 먼저 고찰하자. 

표준 Linux 에서는 가입자 pak 이 forkO 체계호출을 통하여 passwd 를 호출하면 
passwd 의 유효식 별자 euid 는 pak 으로 된다. 이 passwd 파일의 속성은 


640 


透資邊 @資變©^ 







때 7 장. 보안71농 


r - s — x—x root root 

인데 여 기서 표는 이 파일을 누구나 실행할수 있다는것 을 나타내므로 pak 은 
/ usr / bin / passwd 를 실행할수 있다. 그러나 uid 와 euid 가 pak 인 passwd 프로쎄스는 

속성 이 r - root root 로서 아무속성 도 허 가하지 않는 / etc / shadow 파일 

에 대하여 창조나 쓰기를 진행할수 없게 되여있다. 표준 Linux 체계에서는 s 비트 (set 
uid ) 가 passwd 파일 에 설정되 여있어 일 반러 용자도 root 권한을 가지 고 shadow 파일 에 
수정을 할수 있게 되여있다. 

SELinux 에서는 보안방책 에 이 려 한 도메 인이행 을 서술하여 통행 암호의 변경을 가능 
하게 하고있다. 




그림 7-13. S 티 」 nux 에서 ■행암호의 변경과정 

역할은 도메인들과 리용자들을 결합하며 보다 더 구속적인 프로쎄스형이행을 진행한 
다. 프로쎄스형은 오직 역할정의에 의해 허가된다면 지어 형시행이 그것을 허가한다면 
허가된다. 

역할정의구문은 아래와 같다. 
role user_r types passwd _ t ; 
user _ r ： 허가된 형에 대한 역할 
passwd _ t ： 허가된 형 

월보안문맥변경을 다음의 지령으로 한다. newrole 지령은 역할들과 도메인형을 변화 
시켜 새로운 월을 창조한다. 
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newrole -r role -t type [— args ] 

현재의 리용자의 명확한 재 인증을 요구한다. 리용자의 특권준위를 변화시킬것을 요 
구한다. 기정값은 / etc / security / default _ type 로부터 얻을수 있다. 

새로운 문맥은 방책에 의하여 허가되여야 한다. 유효한 보안문맥이여야 하며 도메인 
형 이 새로운 형에 대한 접근으로 이행하여야 한다. 역할이 새로운 역할로 변화되는것이 
허가되여야 한다. 

4) 동작방식과 방책관리 

SELinux 동작방식 은 허 가방식 ( Permissive ) 과 시 행 방식 ( Enforcing ) 으로 갈라볼수 
있다. 허 가방식 에서는 접 근거부는 하지 않지 만 거부를 로그기 록하는데 방책개 발기 간에 
리 용된 다. 시 행 방식 은 접 근거 부를 시 행 하며 제 품전개 에 리 용된 다 . 

getenforce 지령은 현재의 방식을 표시 하며 setenforce 지령은 방식을 절환한다. 

허가방식을 불가능으로 하기 위해서는 

CONFIG _ SECURITY _ SELINUX _ DEVELOP 가 없이 핵심부를 콤파일하여 허가방식을 
불허 한다. 

설치된 방책파일의 위치는 다음과 갈다. 

/ etc / security / selinux / policy , [ ver ] - 핵심부에 적재되는 2진방책파일 
/ etc / security / selinux / src / policy / policy , conf - 완전한 방책 원천코드 
/ etc / security / selinux / src/policy policy , conf 을 건립하는데 리용되는 원천파일 
방책관리도구에는 다음과 같은것들이 있다. 
sestatus 

현재 의 체 계 에 대 한 기 초적 인 정 보 
seinfo 

지령행방책해석 
sepcut 

기초적인 방책원천등록부열람기 및 편집기 
apol 

policy , conf 에 대한 방책해석도구 
seaudit 

검사통보문조종과 해석 
5) 오브젝트들라스 

오브젝 트들라스들은 다음과 같은데 정의되 여있다. 

/ etc / security / selinux / src / policy / flask/security _classes 

일부정의는 핵심부내에 건립되여 있다. 오브젝트콜라스는 다음과 같은 형태로 정의한다. 
class file 

여기서 file 은 단순히 클라스식별자를 정의한다. 방책쓰기프로그람은 가끔 


642 


透資邊 ©資變©^ 


제 7 장. 보안이능 


security _ classes 를 변화시킨다. 이것은 오브젝트 클라스들이 핵심부나 리용자방식에서 
오브젝트 관리자를 변화시킬 때에만 변화된다. 

매개 오브젝트 콜라스는《접근백토르》라고 하는 허가속성의 정의된 묶음을 가진다. 
그리 고 방책 내의 허 가속성 정 의 들은 / etc / security / selinux / src / flask / access_vectors 
들에 있다. 

허 가속성식 별자들은 두가지 방법 즉 일반적 인 상태(그를과 같이 다중콜라스들에 대 
해서 리용된다.)와 클라스상태# 2( 클라스상세허가속성)로 식별한다. 방책쓰기프로그람은 
access _ vectors 를 변 화시 킨 다 . 

일반적인 허가속성은 허가속성식별자들의 그룹을 정의하며 그롭과 같이 오브젝트 클 
라스들을 결합시킨다. 


common file {ioctl read write create getattr setattr lock . . .} 

! - ► 허가속성식별자들 

- ► 일반허가속성식별자 


표 1 - 2 . _ m r 오브젝트클라스의 허가속성들 


JV « 

허 가속성 이 름 

내 용 

1 

Read 

파일내용의 읽기 

2 

Write 

파일내용을 쓰거나 추가하기 

3 

Append 

파일내용을 추가 

4 

Create 

새로운 파일을 창조 

5 

Getattr 

접근방식과 같이 파일속성을 읽기 

6 

Setattr 

접근방식과 같이 파일속성을 변화시키기 

7 

Ioctl 

ioctl 체계호출은 다른 허가속성에 의해 주소화되지 않을것을 

요구한다. 

8 

Unlink 

하드련결의 제거 

9 

Link 

파일에로의 하드련결을 창조 

10 

Lock 

파일잠그기의 설정 과 해제 

11 

Rename 

하드련결의 이름바꾸기 

12 

Relabelfrom 

현존형에 기초하여 보안문맥을 변화시키기 

13 

Relabelto 

새로운 형에 기초하여 보안문맥을 변화시키기 

14 

Mounton 

Linux 에서 등록부에 대해서만 의미를 가진다. 


透資邊 @資變©^ 


643 























Linux 행심부해설서 


15 

Swapon 

파일이 페지화와 바꾸기공간에 대해서만 리용되게 한다. 

16 

Quoraon 

분담 ( quota ) 을 가능으로 한다. 

17 

Execute 

원래의 Linux 실행과 같은 의미 

18 

execute no trans 

도메인이행이 없이 파일을 실행하는 허가속성 

19 

Entrypoint 

이 프로그람을 거처 새로운 도메 인으로 들어가도록 하는 

허가속성 


표 7-3. _ 프로쎄스오브책르 _5 h 스의 허가속성들 


JV 2 

허가속성이름 

내용 

1 

T ransition 

보안문맥를 변화시키기 위한 허가속성 (낡은 도메 인형과 새로운 

도메인형에 대하여 검사한다. ) 

2 

Fork 

프로쎄 스를 생 성 ( fork ) 하거 나 복제 ( clone ) 한다. 

3 

Sigchld 

신호 SIGCHLD 에 대 한 허가속성 

4 

Sigkill 

신호 SIGKILL 에 대한 허가속성 

5 

Sigstop 

신호 SIGSTOP 에 대한 허가속성 

6 

Signull 

보내진 신호가 없다. 

7 

Signal 

다른 모든 신호 

8 

Ptrace 

프로쎄 스를 추적할수 있는 능력 (실례 로 오유수정 등) 

9 

getsched , 

setsched 

프로쎄 스우선도를 얻 거 나 설정한다. 

10 

Getsession 

대화조종 ( session ) 정보를 얻는다. 

11 

getpgid , setpgid 

프로쎄 스그룹 ID 를 얻거 나 설정한다. 

12 

getcap , setcap 

자격을 얻거 나 설정한다. 

13 

Share 

상태공유를 허용한다. 


6) 접근벡토르 

TE 접근벡토르규칙들의 문법은 다음과 같다. 

rule_name src_types tgt_types : classes permissions : 

접근벡토르 ( AV ) 규칙들: 
allow 형 허 가규칙 

원천형이 목표형에 접근하는것을 허가하려면 기정으로 모든 접근허가는 없기때문에 
오브젝트들라스와 허 가속성 에 대 하여 작은 조각의 접근을 명시 하여 야 한다. 

allow user_t bin_t : file {read getattr lock execute ioctl execute _ no_tran 
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이행 혹은 이행하지 않고 user _ t 도메인형이 bin _ t 파일들에 대해 읽기와 실행접근을 
허 가한다. 

allow user_t self : process * ; 
user _ t 도메인형들이 그자신에게 모두 접근하는것을 허가한다. 
allow userdomain shell _ exec_t : file {read getattr lock execute ioctl } : 
userdomain 속성을 가진 형들이 shell _ exec _ t 파일들에 읽기/실행을 허가한다. 그 
러나 도메 인이행만을 한다. (즉 exec _ no _ trans 접근은 없다.) 
neverallow 불허가규칙 

규칙 이 방책 이 콤파일되지 않았다면 어떤 불변방책을 침해 하는것을 허가하지 않는다. 
실시간체계에서는 포함되지 않는다. 이때에는 방책름파일을 할 때 방책검사에 의해 시행 
되며 앞으로 실시간으로 넘어간다. 

neverallow passwd_t ~{ bin_t sbin_t ld _ so _ t } : file execute _ no_trans ; 
passwd _ t 도메인은 절대로 도메인이행이 없이는 bin _ t , sbin _ t , ld _ so _ t 와는 다른 
형 을 가진 파일을 실행 할수 없다. 

neverallow domain ^domain : process trans 仕 ion : 

domain 형 은 (《 domain 》은 속성 ) 새 로운 형 이 또한 domain 형 이 아니 면 새 로운 형 
으로 이행할수 있다. 

auditallow 접근이 허가될 때 일지기록접근이 TE 허가되면 일지를 기록한다. 이것은 
접근허가속성에 대하여 효과가 없다. 

dontaudit 접근이 거부될 때 일지를 기록하지 않음 

접근이 거부될 때 검사를 하지 않는다. 기정 으로는 검사가 거부로 되 여있으며 기대 
되는 접근거부를 소거하는데 쓰인다. 

형은 형시행의 기본으로서 보안문맥와 TE 규칙에서 리용되며 《 type 》 상태를 러용 
하여 정의된다. 

형속성은 형의 그룹들을 결합하는 수단으로서 방책이 프로쎄스를 콤파일하는 기간 
에 쓰인다. 형속성은 TE 규칙에서 보안문맥에서 아니라 형들의 위치에서 리용될수 있다. 
형속성은 《 attribute 》 와 《 type 》 문구를 리용하여 정의한다. 

형과 형속성은 갈은 이름공간을 공유한다. 

7) 형과 속성 

형정의는 다음의 문법에 의하여 진행한다. 

type type_name [alias alias _ name ( s 》\ [, attrbl , .. attribn \ 

형과 별명들, 속성들은 공통적인 이름공간을 공유하며 유일하여야 한다. 별명과 속 
성들은 임의로 선택할수 있다. 별명들은 형이름과 동의어이다. 이것은 실행하는 체계에 
서 리용될수 있으며 실행하는 체계는 항상 초기의 형이름을 되돌린다. 속성들은 그 형을 
다른 형들과 결합한다. 형은 여러개의 속성을 가질수도 있고 가지지 않을수도 있다. 
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속성정의는 현재의 판본에서 《 attribute 》 문구를 통하여 정의된다. 
attribute attribu_name 

일단 정의되면 형정의에서 리용될수 있다. 속성들은 형문구를 통하여 형들로 쓰이며 
《 attribute 》문구는 단지 이름을 보존한다. (방책의미를 포함하지 않는다.) 속성은 형그 
룹들에 규칙을 적용하기 위해 형들의 위치에 있는 TE 규칙들에 리용될수 있다. 

형정의실례를 보기로 하자. passwd 프로그람을 제공하는 형들은 다음과 같이 정의한다. 
type passwd _ t , domain , privlog , auth , privowner ; 
type passwd _ exec _ t , file _ tpe , sysadmfile , exec_type : 
passwd _ t , passwd _ exec_t : 형 이 름 

domain , privlog , auth , privowner , file _ tpe , sysadmfile , exec_type : 지정 
된 속성들 

속성들은 고유한 의미를 가지지 않는다. 그것들의 의미는 순전히 그것들을 리용하는 
규칙에 기초하고있 다. 

형 (원천과 목표) : 

(*> 는 모든 형을 의미한다. 

<-> 는 속성의 형목록으로부터 형을 제거한다. 

<-> 는 명시된 형 및 속성묶음의 보수에 리용된다. 

하나이상의 식별자로 된것은 닫긴 괄호《{}》에 렬거한다. 실례 로 

{ typel_t type 2 _t typeN_t attribute typeX _ t } 

classes 

하나이상의 정의된 오브젝트 클라스들은《*》과 《~》을 리용할수 있다. 다중클라 
스들은 괄호《{}》안에 렬거 한다. 
permissions 

하나이상의 허가속성들은 명시된 들라스들에 대하여 정의된다. 모든 허가속성들은 
명시된 모든 오브젝트 콜라스들에 대하여 유효하여야 한다. 《*》와《~》가 리용될수 있 
다. 다중허가속성들은 괄호《{}》에 쌓인다. 다중규칙들이 같은 원천-목표-들라스를 명 
시 하면 모든 허 가속성 들의 결합이 리 용된다. 

견본방책은 m 4 마크로들을 리용한다. 이것은 추상적인 개념을 리용하기가 더 쉬우며 
SELinux 방책언어에 대해서 본질적이지 않다. 공용마크로들은 ./ policy / macros /*. te 에 있다. 
오브젝트들라스마크로의 실례: 

file _ class_set {file lnk_file sock_file fifo_file chr_file blk _ file } 
notdevfile _ class_set {file lnk_file sock_file fifo _ file } 

여기서 필요없는 오브젝트들을 포함할수 있기때문에 주의하시오. 

허가속성마크로실례: 

rx _ file_perms {read getattr lock execute ioctl } 
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r _ dir_perms {read getattr lock search ioctl } 

그러면 형이행규칙을 보기로 하자. 

새로운 오브젝트에 대한 기정적인 형을 다음의 두가지 형식으로 명시할수 있다. 

기정적인 프로쎄스이행과 새로운 파일오브젝트들에 대한 기정적인 형으로 할수 있다. 
문법: 

type_transition src_types tgt_types : class default_type ； 
src_type & tgt_types : 《*》 나《~》，형묶음을 리용할수 있다. 기정형은 단일형 
이다. 콜라스는 어느 규칙이 형성되는가를 결정한다. 

type 一 transition src_type tgt_type : process default_type ； 

다른것이 요구되지 않으면 src_type 를 가진 프로쎄스가 tgt_type 로 된 파일을 실행 
할 때 프로쎄스는 default_type 도메인을 가전다. 

type_transition src_type tgt_types : file-related default_type ; 

다른것이 요구되지 않으면 tgt_type 의 등록부에서 src_type 를 가진 프로쎄스가 새 
로운 파일관련오브젝트(실례로 file , dir ) 를 창조할 때 새로운 오브젝트는 default_type 
를 가전다. 

type_transition userdomain passwd _ exec_t : process passwd_t ； 

기정 으로 passwd _ exec_t 프로그람들을 실행 할 때 userdomain 속성을 가진 도메 인들 
이 passwd_t 에로 이행한다. 

type_transition passwd_t mp_t : 

{file lnk_file sock_file fifo _ file } passwd _ tmp_t ； 
passwd_t 프로쎄스가 tmp_t 등록부(실례로 / tmp ) 에 새로운 파일체계오브젝트들을 
창조할 때 그 새로운 파일들이 passwd _ tmp_t 형을 가진다. 일반적으로 도메인의 림시파 
일들을 보호하는데 리용하는 수법 이다. 

8) 제약과 보안문맥 

추가적인 방책제약은 러용자들，역할들 혹은 형들 그리고 오브젝트 클라스와 허가속 
성 사이 의 관계 를 고려하여 만족해 야 하는 론리 식 으로 표현한다. 

표준적 인 방책 제 약은 / etc / security / selinux / src / policy/constraints 에 있 다. 

제약상태문법은 다음과 같다. 

# constrain class_set perm_set expression ； 

# 

# expression : ( expression ) 

# | not expression 

# | expression and expression 

# I expression or expression 

# | ul op u 2 ul 와 u 2 은 리용자문맥 (낡은것과 새것) 
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# | rl role_op r 2 rl 와 r 2 은 역할문맥 

# I tl op t 2 tl 와 t 2 은 형 문맥 

# I ul op user_set 

# I u 2 op user_set 

# I rl op role_set 

# I r 2 op role_set 

# I tl op type_set 

# I t 2 op type_set 

# expression ： 모두가 같은것과 같지 않은것 

# op ： == | != 역할은 우선권 ( dominance ) 을 포함한다. 

# role _ op : == | != | eq | dom | domby | incomp 
제약상태의 실례를 보자 

constrain process transition (ul == u 2 or tl == privuser or (tl == crond 
_t and t 2 == user _ crond _ domain )) : 

여기서 ul == u 2 는 낡은 ( ul ) 리용자와 새로운 ( u 2) 리용자가 갈아야 한다는것; 
tl == privuser 는 낡은 형 ( tl ) 이 《 privuser 》 속성을 가져 야 한다는것 ; 
tl == crond _ t 는 낡은 형 ( tl ) 이 《 crond _ t 》 도메 인형 이 라는것 : 
t 2 == user _ crond _ domain 는 새 로운 형 ( t 2) 이 《 user _ crond_domain } 속성 을 가 
진다는것을 의미한다. 

프로쎄스보안문맥이행에 대하여 제약은 다음과 같이 시행한다. 

낡은 그리고 새로운 보안문맥에서 리용자동등성은 같아야 하거나 이행하는 프로쎄스 
의 도메 인 이 리 용자를 변화시 키 는것 보다 특권 이 부여 되 며 이 행 하는 프로쎄 스는 crond 이 
고 새로운 도메 인은 crond 가 변화되는것을 허 가한 crond 리 용자도메 인들중의 하나이 다. 
constrain process transition (rl == r 2 or tl == provrole ) ; 

프로쎄스보안문맥이행에 대한 제약은 다음과 같이 시행한다. 

낡은 그리고 새로운 보안문맥들에서 역 할은 같아야 하거 나 혹은 이행하는 프로쎄스 
의 도메 인은 역할을 변화시키는것보다 특권이 부여된다. 

constrain dir _ file _ class_set {create relabelto relabelfrom } 

(ul == u 2 or tl == privowner ) : 

새로운 파일오브젝트들 ( dir _ file _ class _ set ) 의 표식들에 대한 제약을 다음과 같이 
시행 한다. 

새로운 오브젝트에 대한 리용자동등성은 프로쎄스에 대한 리용자와 같아야 하며 프 
로쎄스의 형은 파일소유자를 변화시키는것보다 특권이 부여된다. 

초기의 SID 보안문맥 

초기의 SID 들에 대한 보안문맥을 서술한다. 초기의 SID 들은 미리 정의되며 체계초 


648 


透資邊 @資變©^ 



체 7 장. 보안이능 


기화나 미리 정의된 오브젝트들에 대해 리용한다. 

문법: 

sid sid_identifier security_context 
sid _ identifiei •는 미리 정의된 SID 이름이다. 
security _ context 는 user : role : type 이 다. 

실례: 

sid kernel system _ u : system _ r : kernel_t 
sid security system _ u : object _ r : security_t 
sid unlabeled system _ u : object _ r : unlabeled_t 
파일체계 에 대 한 동작을 표식 

태워질 때 동작을 표식하는 파일체계는 방책에 명시적으로 나타낼수 있다. 
fs _ use _* statements 
genfscon statement 

주어진 파일체계에 대한 방책에 없는 명세화를 표식한다면 파일체계와 그의 모든 오 
브젝트들은 《 unlabeled 》 SID 의 보안문맥으로 표식된다. 
fs_use 상태들 

실례들은 ./ policy / fs _ use 에 있다. 

fs _ use_xattr fs_type 문맥은 selinux xattr 를 지 원하는 고전적 인 파일체 계 즉 현 
재에는 ext 2, ext 3, xfs 에 대한것이다. 오브젝트문맥은 항상 파일체계에 포함된다. 

fs _ use_task fs _ type 문맥은 프로쎄스를 생성 하는것과 같은것을 지적 하는 오브젝트 
문맥 이 다. 문맥은 파일체 계 오브젝 트표식 이 다. 

fs _ use_trans fs _ type 문맥은 프로쎄스를 생성하는것과 형 이행규칙들에 기초한 오브 
젝 트문맥 이 다. 문맥 은 파일체 계 오브젝 트표식 이 다. 
genfscon 상래 

실례는 policy / genfs _ contexts 에 있다. 
genfscon fs_type pathprefix [- file _ type ] context 
pa 仕 iprefix 는 오브젝트이름들의 부분적 인 경로이름이 다. 
file _ type 는 임의의 파일형구분자로서 b , c , d , p , 1, s , -이다. 

파일 체 계 오브젝 트문맥 은 파일 체 계 의 뿌리 와 같다. 

fs_use 에 의해 조종되지 않는 과일체계형에 대해 쓰인다. 가장 긴 정합 

pattiprefix (그리고 임의의 파일형)는 오브젝트표식을 결정한다. 

망오브젝 트문맥 

실례는 policy / net _ contexts 에 있다. 망오브젝트들에 대한 보안문맥표식규칙들은 
port ( tcp / udp 포구들을 통한 통보문들)， netif (망대면부), node (호스트주소) 이다. 표 
식을 명시하지 않으면 초기의 SID 가 문맥을 결정한다. 
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portcon protocol ports context 

protocol 은 tcp 나 udp 이며 ports context 포구번호 (25) 또는 범위 (137-139) 로서 
포구에로의 결합 (binding) 을 조종한다. 

netifcon interface device_context packet_context 

interface 는 망대면부오브젝트이름 (실례로 lo, e 比 i0) 이며 device_context 는 
netif 오브젝 트표식 이 고 packet_context 는 수신된 파케 트들의 기 정 표식 이 다. 
nodecon ip_address ip_mask context 

ip_address 는 IP 주소(실례로 192.168.0.0) 이며 ip_mask 는 IPv4 망마스크(실례 
로 255.255.255.0) 로서 모든 마디들의 보안문맥은 주소와 마스크에 의해 식별된다. 

9) 방책파일 

방책에는 론리와 조건이 리용된다. 론러는 방책에 정의된 변수들에 대해서 값이 
true 이거나 false 이 다. 값들은 실시간으로 변화될수 있다. 

조건상태는 다음 3개의 부분으로 구성되여있다. 즉 조건식을 포함하는 《if》 상태와 
방책상태블로크, 임의의 《else》 블로크로 되 여있다. 

방책에 대하여 제한된 실시간구성을 허가한다. 

문법 : bool name 기정값; 

실례 : bool user_ping false； 



(macros) 


그립 7-14. 방책파일 
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기정으로 방책파일은 / etc / security / selinux / 에 설치된다. 방책원천파일은 
src / policy 에, 2진방책을 건립하는데 쓰이는 파일은 src / policy / policy . conf 이고 2진 
방책 은 policy , [ ver ] 이 다. 

초기의 Makefiles 목표: 

policy 검사와 개발을 위해 국부적으로 콤파일한다. 
install 방책 구성 을 콤파일 하고 설 치 한다. 
load 방책구성을 를파일하고 설치하고 적재한다. 
reload 콤파일하고 설치하고 강제적재 및 재적재한다. 

clean 림시파일들을 제거한다. 

방책 검사지 령 으로 policy , conf 로부터 2진방책 파일을 창조한다. 
checkpolicy [_ b ] [_ d ] [_o 출구파일] [입구파일] 

방책적재지 령은 핵 심부에 2진방책파일을 적재 한다. 
load_policy 경로 
파일체계에 표식붙힘 

디스크상의 파일체계들은 확장된 속성에 문맥들을 보관한다. 이것들이 fs _ use_xattr 
파일체 계 들이 다. ( ext 2, ext 3, xfs ) 이 것들은 초기 시 동이 나 체 계 들사이 를 옮겨 갈 때 보안 
문맥들이 변하지 않도록 하는데 《 security 》 라고 하는 확장된 속성의 이름공간을 리용한 

다. 

파일들은 SELinux 가 설치되는 동안 그리고 파일이 창조될 때 표식된다. 이 경우 
fs _ use 동작에 따라 SELinux 핵심부에 기초하여 실행하는 때 진행된다. 한편 파일들을 
재표식하는 때에도 진행된다. 이때에는 chcon 지령과 se 社 ile 지령， - Z 항목과 함께 
install , cp 지령들을 리용한다. 

방책해석과 오유수정 

해 석 하는 자원으로는 방책 원천파일들 policy , conf 와 policy . XX , 방책 검 사오유통 
보문 / var / log / messages 이 다. 

방책검사오유들은 방책름파일오유들이다. 즉 1개 혹은 그이상의 방책문구들에서 문 
법 혹은 의 미 론적 인 문제 가 있 다는것 이 다. 

오유들은 policy . conf 에 대하여 행번호참조와 문법오유들, 기호들을 통지한다. 

검사통보문은 / var / log / messages 에 기록된다. 일지기록파일입구점을 실례로 보기 
로 한다. 

Jun 18 19:56:08 localhost kernel : audit (1087602968.172:0) : avc : 
denied { read } for pid =16577 exe =/ usr / bin/tail name=messages 
dev = sda 2 ino =618992 scontext = root : staff _ r : staff_t 
tcontext = system _ u : object _ r : var _ log_t tclass=file 
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해석을 다음의 질문에 관하여 진행해나간다. 

그것이 왜 발생하였는가? 

정말 문제로 되는가? 

거부사건이 있는가? 

아니 : 《 dontaudit 》 를 리 용한다. 

예측되는 특권을 초과하는 문제 인가? 

예 : 문제 를 고정 한다. 

이 것 이 다른 프로그람과 고의 적 이 지 않은 불일 치 인가? 

예 : 불일치를 해소한다. 

혹시 목표가 표식되였는가? 

아니 : 파일을 재 표식 한다. 

우리 가 그 접근을 거부하려고 하였는가? 

아니 : 적당한 《 allow 》 규칙을 고정 한다. 

3. SELinux 보안방책작성 

방책들은 사용자가 호출하는 역 할 ( role ) 과 갈은것들을 관리하는 규칙 ( rule ) 모임 이 
다. 어떤 역할이 어떤 도메 인 ( domain ) 을 신청 ( enter ) 할수 있는가와 어떤 도메 인이 어 
느형에 접근 ( access ) 할수있는가를 규정한 모임 이다. 

당신은 어떤 체계를 설정 하려는가 하는데 따라 방책파일 (policy files ) 을 편집 할수 
있다. SELinux 의 목적은 방책을 시 행 ( enforce ) 하는것 이 다. 그래서 방책은 SELinux 
의 핵심부를 형성한다. 기정방책은 모든것을 거부하는것이고 모든 연산은 방책파일에서 
명 백 하게 허 용 ( permit ) 되 여 야 한다. 

방책은 당신이 희망하는대 로 당신의 체계를 융통성있게 구축하도록 해준다. 당신은 
배라그와 sysadm_r 역할들을 호출할수 있는 사용자 A 를 취하겠는가, user_r 역할만 
을 호출할수 있는 사용자 묘를 취하겠는가를 선택할수 있다. 

방책은 당신이 요구하는것만큼 엄밀하고 가볍게 될수 있다. 방책은 프로그람이 무엇 
을 동작시킬수 있는가，어떻게 프로그람이 파일의 접근조종, 호상추적하는 프로그람, 송 
신신호 갈은것들과 호상 작용할수 있는가를 조종할수 있다. 례를 들어 파일접근에 관해 
서 볼 때 어떤 도메인이 그것들을 창조하도록 당신은 / tmp 안에 창조한 파일에 대한 방 
책을 가질수 있지만 다른 도메 인은 그것을 호출할수 없다. 

방책들은 그것이 리용되기 전에 2진형식으로 콤파일되여야 한다. 이것을 하기 위하 
여 우리는 방책등록부에서 make 를 실행해야 한다. 그것은 Debian 에서는 
/ etc / selinux /, RedHat 에서는 / etc / security / src / policy 이다. 한편 FedoraCore 2 
에서는 / etc / security / selinux / src/policy ( FedoraCore 3 에 서 는 
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/ etc / selinux / src/policy 이 다) 이다. 

SELinux 방책의 콤파일공정은 다음과 같다. 

기) 방책구성파일은 하나로 련결되여야 한다. 

방책구성파일은 . te 로 끝나고 방책등록부와 그 안에 있는 부분등록부에 있다. 

t ) m 4 마크로처리기는 우의 련결의 결과에 응용된다. 그것은 다음에 

policy , conf 파일을 창조한다. 

policy , conf 파일은 방책 등록부에 위치하고있으며 파일정의, 도메인정의 매 도메인 
이 할수 있는 규칙들, 역할들과 사용자들, 사용자가 어떤 역할들을 호출할수 있는가 하 
는 규칙들과 갈은것을 포함한다. 

c ) 계속하여 checkpolicy 방책를파일러가 Policy . VERSION 파일을 창조한다. 거 
기서 VERSION 은 판본번호이다. Policy . VERSION 은 방책등록부에서 make install 
지령을 실행하여 / etc / security / selinux 등록부에 설치된다. 이 방책은 그 다음 재기동 
시에 적재된다. 

그러나 만일 다시 방책을 runtime (실행시)변화를 하려고 한다면 실행핵심부에 새 
방책을 적재하도록 방책파일등록부에서 make load 지령을 실행할수 있다. 

SELinux 에서 어떤 연산을 집행하려고 할 때 그렇게 하려고 하는 사람의 능력은 
그 사람의 보안문맥，접근을 시도하려 고 하는 오브젝트클라스 (class of object ) , 그 오 
브젝트의 형 ( type ) 에 의해 결정된다. 실례로 파일은 파일의 콜라스를 가지고있고 등록 
부는 등록부의 를라스를 가지고있으며 Unix 도메인소케트 ( socket ) 는 sock _ file 의 콜라 
스를 가지 고있 다. 접 근을 시도하려 는 오브젝 트의 형 이 방책 에 의 해 이 미 결정 되 여있다. 
권한이 없는 사용자 faye 를 놓고 말해보자. 

Is 1 / etc / shadow # 시도하려고 한다. 이것을 할 때 기록되는것은 다음과 같다. 
( sysadm _ r 로써 dmesg 지령의 출력을 검사) 

avc ： denied { getattr } for pid =10387 exe =/ bin/ls path =/ etc/shadow d 
ev =03：03 ino =129766 

scontext = faye : user _ r : user_t tcontext = system _ u : object _ r : shadow_t tclass=file 

Is 1 / etc / shadow 를 실 행 하는 사용자의 원천문맥 ( scontext ) 은 

faye : user _ r : user_t 이 다 . 

그래서 신분 ( identity ) 은 《 faye 》 이며 user _ t 도메인에서 user 」 •역할을 취하고있 
다. 목표문맥 ( tcontext ) 은 system _ u : object - r : shadow _ t 이 다. 다른 말로 
/ etc / shadow 는 형 3]1크(10짜_1:를 가지고있다. 목표클라스 ( tclass ) 는 파일이며 그래서 
우리는 / etc / shadow 가 형 3]1크(10'\^_1;를 가지고있다는것을 알수 있다. 우의 전체적인 
avc 통보문은 우리가 시도해본것에 대한 상태를 보여주며 혹은 

“ getattr ” / etc / shadow _ t 가 실패하였다는것을 보여준다. 

그러면 / etc / shadow 가 형 shadow _ t 를 가지고있다는것이 어디에 있는가? 
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그 대답은 등록부 file _ contexts 안에 있는 파일 file _ contexts 에 있 다. 그것 은 당 
신의 방책등록부안에 있다. 만일 우리가 이 파일안에서 / etc / shadow 에 대해서 grep 를 
하면 다음의것을 보게 된다. 

/ etc / shadow . * — system _ u : object _ r : shadow_t 

/ etc / shadow 의 형에 대한 명세서 역시 types . fc 파일에 있는데 그것은 를파일되 
서 file _ contexts 파일을 생성한다. 이 실례에서는 / etc / shadow .*-!- 호출한 파일은 
system _ u 신분을 가지고있다. 왜냐하면 체계에 속해있는 임의의 파일들은 system _ u 률 
가지고있기때문이다. object _ r 는 파일에 할당된 역할인데 그것은 역할과 같은 많은것들 
이 파일과 관계된다는것을 의미한다. 

1) policy , conf , checkpolicy , the Makefile 
SELinux 는 일부측면에서 자체로 편집을 하게 되는 많은 구성파일을 가지고있다. 
policy , conf 

기본구성파일은 policy . conf 이다. 이 파일은 모두가 련결되여있는 . te 로 끝나는 파 
일들로 구성되 여 있다. 연산의 일반적 인 과정 에서 그것 이 《make load 》 에 의 해서 자동 
적으로 발생하기때문에 policy . conf 파일을 편집하지 못하지만 만일 시험을 하면서 빨리 
변경시키려면 편집할수 있다. 
checkpolicy 

이것은 방책를파일러 이며 《make reload 》를 통해서 실행된다. Checkpolicy 의 
기본과제는 방책을 를파일하는것이지만 그것 역시 방책을 물어보는데 사용할수 있다. 만 
일 user _ t 로써 checkpolicy 를 실행하면 다음과 같은것을 볼수 있다. 

faye 9 kaos : / etc / selinux $ checkpolicy 

checkpolicy ： loading policy configuration from policy.conf 
security ： 4 users , 5 roles , 683 types 
security ： 29 classes , 71806 rules 
checkpolicy : policy configuration loaded 

이것은 4 개의 사용자를 가지고있다는것을 말해주며 현재의 etc / selinux / users 파일 
에 faye , root , system _ u , user _ u 이 라는것 이 다. 

여기서 user _ r , sysadm _ r , staff _ r , system _ r 라는 5 개의 역할 ( role ) 을 가지고있 
다. 어디에 5개의 역할이 있는가? 

지령을 실행하면 

grep ^role policy , conf | cut - f 2 n -d " | sort -u 
우에서 언급한 4 개의 역할만을 가지고있다는것을 보여준다. 5번째 role object _ r 는 
모든 파일에 할당된 역할이다. 그리고 명백하게 정의된다. (실지 방책에는 존재하지 않는 
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다.) 파일에 대한 역할이 관계없고 만일 파일의 보호준위를 요구한다면 특수형이 그 파 
일 에 할당될 것 이 라는것 을 주의 하시 오. 

우의 실례 역시 683형들과 29개 클라스들，71806 규칙들을 가지고있다는것을 보여 
준다. 

makefile 

makefile 은 아래와 같은 연산들을 제공한다. 
install 

Make install 은 방책을 콤파일하고 설치하지만 그것을 적재하지는 않는다. 만일 
SELinux 핵심부를 실행하지 않고 다음번에 SELinux 로 기동하도록 방책을 설치하려고 
한다면 방책은 적재될것이다. 
load 

make load 실행은 방책구성을 콤파일하고 설치, 적재한다. 체계를 재기동할 필요는 
없다. 

reload 

make reload 실 행 은 방책 구성 을 콤파일, 설 치 그리 고 적재 하거 나 재적 재 한다. 
makefile 이 방책을 적재할 때 《 load 》 라고 하는 기발파일은 방책원천등록부안에서 
tmp 등록부에 창조된다. 
relabel 

make relabel 은 파일 문맥 구성 에 기 초한 파일 체 계 를 재 표식 ( relabel ) 한다. 파일 문 
맥구성파일은 당신의 방책 원천등록부에 있는 fil e _ CO ntexts 에 있다. 
policy 

make policy 는 시험 및 개발시에 국부적으로 방책을 콤파일한다. 이것은 방책을 
콤파일 하지 만 실 지 로는 설 치 하지 않는다 . 

2) 속성들 : attrib . te 파일 

이 파일은 방책원천등록부안에 있으며 그것은 domain 과 type 들의 속성선언을 포함한다. 
형속성은 류사한 성질을 가진 형들의 모임을 확인하는데 사용될수 있다. 매형은 임 
의의 수의 속성을 가질수 있으며 매 속성은 임의의 수의 형과 관련된다. 속성들이 형을 
그룹화하고있는것처럼 도메인속성들은 도메인을 그룹화하고있다. 

domian 속성은 프로쎄스에 할당될수 있는 매형을 확인한다. 이 속성은 ps , top , 
inetd 등과 같은 실행될수 있는 모든 프로쎄스들과 관계된다. 

privuser 속성은 SELinux 사용자신분을 변경할수 있는 모든 domain 을 확인한다. 
여기서는 표준 Unix id 가 아닌 SELinux 사용자신분에 대해 말하고있다는것을 념두에 
둔다. 지 령 grep * type . *privuser policy , conf 를 실행 하면 그 신분을 변경 할수 있는 
도메인들이 sysadm _ su _ t , initrc _ su _ t , staff _ su _ t , run _ init _ t , local ᅳ login _ t , rem 
ote _ login _ t , sshd _ t , sshd _ extern_t and xdm _ t # 포함하고있다는것 을 보여 준다. 
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Privrole 속성은 SELinux role 을 변경 할수 있는 모든 도메인을 확인한다. 도메인 
은 서로 다른 역할을 가전 프로쎄스를 만들수 있다. 실례로 newrole 을 보자. 이 지령 
의 목적은 다른 역할로 변경하는것이다. privrole 속성은 이것을 허가하기 위하여 
할당되여야 한다. Privrole 은 다른 사용자역할들에 대한 변경을 허락한다. 
priv _ system _ role 은 system _ r 에 대한 변경을 허 락한다. 

Privowner 속성은 파일에 다른 SELinux 사용자신분을 할당할수 있으며 프로쎄스 
신분과 갈지 않은 신분을 가진 파일을 창조할수 있는 모든 도메인을 확인한다. 실례로써 
쯔잤티티짜선그를 사용하는것은 passwd _ t 프로쎄스가 그것을 실행 하는 사용자의 신분을 가지 
고있으며 그것은 system_u 신원을 가지고 / etc / shadow -1- 재표식 ( relabel ) 하려 고 하 
며 따라서 privowner 를 요구한다. 

userpty _ type 속성은 모든 user _ devpts _ t ^ staff _ devpts _ t ^ 같은 비관리자적인 
devpts 형들을 확인한다. 실례로 지령 

Is context / dev / pts 를 실행 하면 다음과 같은것을 볼수 있다. 

crw - faye staff faye : object _ r : staff _ devpts_t 0 

[ snip ] 

여기서 / dev / pts /0 은 형 staff _ devpts _ M * 가지고있다. 

sysadmfile 속성은 완전히 관리자로 접근할수 있는 파일에 할당된 모든 형들을 확인 
한다. shadow _ t 는 기정적으로 관리자로 접근할수 없다. 실례로 setfiles 와 같은것들에 
의해 접근할수 있다. 

fs_type 속성은 파일체계에 할당된 모든 속성들을 확인한다. security _t 는 

/ selinux 파일체계에 적용한다. 

ptyfile 속성은 ptys 에 할당된 모든 형들을 확인한다. ttyfile 속성 역시 여기서 응용한 
다. 

xterm 에서 Is context ‘ tty ’ 지령의 실행은 현재 접속하고있는 pty 장치의 형을 
보여준다. 

례를 들면 

fayeSkaos : / etc / selinux $ Is —context ' tty ' 

crw - faye faye faye : object _ r : user _ devpts_t / dev / pts /1 

다음 바꾸어서 갈은 지령을 실행하면 다음과 갈은것을 볼수 있다. 

faye 9 kaos : / etc / selinux $ newrole -r sysadm_r 
Authenticating faye . 

Password ： 

faye 9 kaos : / etc / selinux $ id 

uid =1000 ( faye ) gid =1000 ( faye ) groups =1000 ( faye ) ， 20 ( dialout ), 25 ( floppy ), 
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29 ( audio ), 30 ( dip ) \ 

context = faye : sysadm _ r : sysadm_t 
faye 8 kaos : / etc / selinux $ Is —context ' tty ' 

crw - faye faye faye : object _ r : sysadm _ devpts_t / dev / pts / 

1 

pty 가 현재 형 33巧크(1111_(16구마3_1：로 표식화되 였 다는것 을 명 심 하시 오. 
login _ contexts 속성은 login 형에 대한 기정문맥을 정의한 파일을 확인한다. (례 
login , cron ) 

login 형에 대한 기정문맥은 파일 / etc / security / default _ contexts°ll 있다. 

3) 사용자관련파일들 
users 파일 

이 파일은 배포물의 방책원천등록부에 있다. / etc / selinux / users 에 있다. 그것은 
SELinux 체계가 인식하여야 하는 매 사용자에 대한 정의를 포함하고있다. 만일 사용자 
가 이 파일에 명백히 정의되여있다면 그 사용자신분은 그 보안문맥의 첫 부분에 서술된 
다. 보안문맥 은 신분 ( identity ) , 역 할 ( role ) , 도메 인 ( domain ) , 형 ( type ) 으로 이 루어 져 
있다. 사용자는 자기 소유의 현재보안문맥을 id 지령을 실행하여 검색할수 있다. 만일 사 
용자신분이 사용자파일 에 정의되 여있지 않다면 user _ u 신분을 할당한다. 

다음과 같은것 이 users 파일에 들어 있다고 하자. 
user root roles { staff_r sysadm_r }; 

이것은 사용자신분이 root 임을 정의하고 root 가 sysadm _ r 역할로 들어가 

도륵 한다. newrole 지령은 사용자역할을 변경하는데 사용될수 있거나 혹은 콘솔에서 
가입시 우의 역할중 하나로 들어가도록 선택할수도 있다. 
user pak roles { staff_r sysadm_r }; 

우의 두가지 례 는 root 사용자가 53巧크(1111_]：를 가지 고있어 야 한다는것 을 보여주며 또 
한 다른 사용자 ( pak ) 가 체계관리자역할로 접근할수 있다는것을 볼수 있다. 만일 사용자 
root 에 대한 역할정의가 sysadm _ r # 가지고있지 않다면 pak 은 root 보다 더 강력하게 
될것이다. 

user kim roles { user_r } : 

사용자 kim 은 user_r 역할만 접근할수 있다. 그것은 일반적으로 권한이 없는 사용 
자역할이다. 

user system_u roles system _ r ； 

system _ u 신분은 파일과 등록부, 소케트 등과 같은 프로쎄스나 오브젝트에 대 한 사 
용자신분이다. 사용자는 사용자프로쎄스에 system _ u 신분을 할당하지 못한다. 왜냐면 
system _ u 가 데몬을 위한것이기때문이다. 만일 사용자가 3모아6111_11를 가지고있다면 
system _ r 나 임의의 데몬령역에 대한 접근을 진행한다. 
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user, te 파일 

이 파일은 부분등록부 domains 에 있다. 이것은 현재의 체계에서 사용자에 대해 권 
한이 없는 도메인들을 포함한다. 이 파일에서 다음과 갈은 행을 볼수 있다. 
full_user_role(user) 

이 행은 사용자역할로서 그 홈등록부에서 bin_t 프로그람의 실행，사용자의 홈등록부 
에 user_home_dir_t 할당과 그 안에서 등록부에 user_home_t 할당과 같은 표준조작들 
을 하도록 모든 조작을 가능하게 한다. 
full_user_role (staff) 

allow staff_t unpriv_userdomain : process signal_perms； 
can_ps (staff_t, unpriv_userdomain) 

allow staff_t { ttyfile ptyfile tty_device_t } : chr_file getattr； 

이것은 령 역 정의한다. 두번재 행 은 Staff_t 도메 인이 11361*_1：와 

같은 권한이 없는 도메인으로 실행하는 프로쎄스에 신호를 보내도록 한다. 세번째 행은 
staff_t 가 ps 를 실행하고 권한이 없는 사용자도메인으로 프로쎄스를 보게 해춘다. 

Staff_t 는 pS 를 실행 하고 11361*_1；와 사용자도메 인으로 되 여있는 모든것을 볼수 있지 
만 user_t 는 할수 없다. 

4번째행은 staff_t 가 임의의 말단장치속성에 접근하도록 한다. 

dontaudit unpriv_userdomain sysadm_home_dir_t : dir { getattr search } ； 

이 행은 Is 1 혹은 cd /root 지 령과 같은것을 실행함으로써 혹은 /root 등록부안에 
서 파일접근을 시도함으로써 /root 등록부에 대해 접근하려는 권한이 없는 사용자 
(1136!*_1:와 같은)도메인을 확인하지 않는것을 말한다. 이 행은 《dontaudit source 
destination : destination class {what was attempted } 》로써 읽 을수도 있 다. 

# 역할 $1_1*로부터 $2_1*로 변경하고 tty 를 정당히 재표식한다. 
define ( 、 role_tty_type_change ’, ' 
allow $l_r $2_r； 

type_change $2_t $l_devpts_t : chr_file $2_devpts_t； 
type_change $2_t $l_tty_device_t : chr_file $2_tty_device_t； 


첫행은(설명문이 아닌) 마크로 role_tty_type_change 를 정의한다. 이 마크로는 사 
용자가 역 할을 변경 하고 사용하고있는 tty 를 재 표식 하도록 한다. (staff_r 에서 sysadm_r 
을 엄으려고 newrole 지령을 사용하여 현재의 tty 를 변경할 때와 같이) 

두번째 행은 $l_r 가 $2_r 에로 전환하는것을 허락하도록 한다.(여기서 $l_r 는 
staff_t 일 것 이 고 $2_r 는 sysadm_r 일 것 이 다.) 

tty 의 재표식은 세번째와 네번째 행에 의해 진행된다. 
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ifdef('newrole.te* , ' 

# 

# Allow the user roles to transition 

# into each other. 
role_tty_type_change (sysadm, user) 
role_tty_type_change (staff, sysadm) 
role_tty_type_change(sysadm, staff) 


이 블로크는 만일 newrole.te 가 정의되였다면 나타난 역할이 서로 전환이 가능하 
도록 하게 한다는것을 보여준다. 이 상태문은 이미 정의된것으로써 

role_tty_type_change 마크로의 호출이 다. 
user_macros. te 파일 

이 과일은 사용자등록가입도메 인에 대한 마크로를 포함하고있다. 

사용자등록가입도메 인에 대 한 마크로 

# user_domain() is also called by the admin_domain() macro 
undefine ruser_domain ’ ) 

define Cuser_domain ’,' 

이것은 마크로 user_domain 을 정의한다. 

# Use capabilities 

allow $l_t self ：capability { setgid chown fowner } ； 
dontaudit $l_t self: capability { sys_nice fsetid }; 

이 토막에서 《 capabilities 》는 그룹 id(setid) 를 변경 하는 가능성을 의미 한다. 프 
로그람은 자기의 그롭 id 를 변경하려고 할 때 setgidO 를 호출할수 있다. 프로그람은 이 
가능성이 허가되지 않았다면 setgidO 를 호출할수 없다.구체적인 정보를 보려면 
/ usr/include/linux/capability. h 를 보시 오. 

첫행은 $l_t 형이 setgid 에 대한 자격을 허락한다. $1은 코드를 호출하는 첫 파라 
메터이다. (마크로를 호출한 코드) 

두번째 행은 sys_nice (순서짜기우선권을 확장하는 능력) 혹은 fsetid(setuid 와 
setgid 파일조종과 관련된)를 검사하지 않는다는것을 의미한다. 이것들은 몇번이고 요구 
되 는 자격 들이다. 

# Type for home directory. 
ifelse($l, sysadm, 、 

type $l_home_dir_t, file_type, sysadmfile, home_dir_type, home_type； 
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type $l_home_t, file_type, sysadmfile, home_type : 
tmp_domain($l) 

type $l_home_dir_t, file_type, sysadmfile, home_dir_type, user_home_dir 
—type, home_ 

type, user_home_type : 

type $l_home_t, file_type, sysadmfile, home_type, user_home_type : 

우의 행들은 만일 $_1이 sysadm 이면 첫 블로크를 집행하고 그렇지 않으면 두번째 
블로크를 집행 하라는것을 의미한다. 

둘다 홈등록부와 tmp_domain(/tmp 파일접근에 대한 마크로)에 대한 형을 정의한다. 
그래서 첫 블로크는 sysadm stuff 와 관련되며 두번째 블로크는 나머지것들과 관련된다. 

# do not allow privhome access to sysadm_home_dir_t 
file_type_auto_trans (privhome, $l_home_dir_t, $l_home_t) 
tmp_domain($l, user_tmpfile') 

’) 

여기서 privhome 도메인이 sysadmJiome_dir_t 를 호출하는것을 허가하지 않는다. 
실례로 procmail 을 들어보자. 

procmail 이 사용자의 홈등록부에서 파일을 창조하는 메일을 전송할 때 sysadm 등 
록부 (/root) 로 되는것을 바라지 않는다. 

《 file_type_auto_trans 》는 새 파일 에 대 한 기 정 의 형 을 설정 하는 방법 이 며 그것 이 
창조된 등록부와 같은 형 이 된다. 

일반적으로 파일을 창조할 때 그 파일은 그것이 창조된 등록부와 같은 형을 가진다. 
창조시 에 등록부에서 서로 다른 형을 가지도록 하는 방법은 두가지 이 다. 첫번째 방법은 
open_source() 를 리 용한것 이며 두번째는 file_type_auto_trans 를 리 용하는것 이 다. 

첫 번째 방법이 가능하려면 그것을 혀 용하는 file_type_trans 규칙을 가져야 한다. 
그 다음 file_type_autp_trans 는 그것을 기정적으로 설치한다. 

# allow ptrace 
can_ptrace($l_t, $l_t) 

이것은 첫 파라메태 ($l_t) 가 ptrace 를 하게 한다. 혹은 두번째 파라메터의 처 리를 
추적한다. 이 행은 다음과 같이 $l_t 가 자기의 ptrace 를 허용하게 한다. 

#홈등록부에서 파일을 창조하고 접근하고 제거 한다. 

file_type_auto_trans ($l_t, $l_home_dir_t, $l_home_t) 

allow $l_t $l_home_t : dir_file_class_set { relabelfrom relabelto }; 

여기서 도메인 $l_t 는 형 $l_home_dir_t 인 등록부안에서 파일을 창조한다. 그리고 기 
정으로 창조된 파일은 형이 $l_home_t 이다. 두번째 행은 $l_t 가 그밖의 아무것에 대해 
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서 형이 $ l _ home _ t 인 파일을 재표식하게 한다. 그리고 그 밖의 아무것으로부터 
$ l _ home _ t ^. 형을 바꾸게 한다. 

# Bind to a Unix domain socket in / tmp . 

allow $ l_t $ l _ tmp _ t : unix _ stream_socket name _ bind ； 

이것은 $ l _ t 가 Unix 도메인소케트에 대한 결합 ( bind ) 을 허락한다. 그래서 그 다음 
에는 다른 프로쎄스로부터 접속을 받을수 있다. 

$ l _ tmp _ t 는 tmp _ domain 의 형이다. Name _ bind 는 $ l _ t 가 / tmp 안에서 이름에 대 
한 결합을 하도록 허 락한다. 

초기사용자도메 인에 대한 마크로들 
아래에는 user _ t 와 관련된 내용이 있다. 
undefine (' full _ user _ role , ) 
define (' full _ user _ role , , ' 

# user _ t /$ l_t is an unprivileged users domain . 

type $ l _ t , domain , userdomain , unpriv _ userdomain , web _ client _ domain ； 

# $ l_r is authorized for $ l_t for the initial login domain , 
role $ l_r types $ l _ t ； 

allow system_r $ l _ r ； 

# Grant permissions within the domain . 
general _ domain_access ($ l _ t ) ； 

마크로 full _ user _ role 를 정의한다. 형 $ l _ t / user _ t 를 정의하고 거기에 목록화된 
4가지 속성을 준다. 

$ l _ r 八 iser _ r 는 $ l _ t 八!은근느를 가질수 있다. System _ r 는 다음 $ l _ r 八 iser _ r 에 대한 
호출을 허락한다. general _ domain _ access 는 $ l _ t 가 $ l _ t 에 있는 프로쎄스를 볼수 있 
게 허 락한다. 또한 다른것들중 / proc /# 에 있는 파일들을 볼수있게 한다. (파일 
core _ macros . te 를 검사) 

# Read / etc . 

allow $ l_t etc _ t：dir r _ dir _ perms ； 
allow $ l_t etc _ t : notdevfile _ class_set r _ file _ perms ； 
allow $ l_t etc _ runtime _ t ： { file lnk_file } r _ file _ perms ； 
user _ t 가 / etc _ t (/ etc / 의 형)을 읽도륵 허락한다. 리용자는 / etc 안의 파일을 읽고 
볼수 있으며 /etc 에서 Is 1 command 와 같은것들을 할수 있다. 만일 파일 
core _ macros . te 를 주시해보면 notdevfile _ class_set 가 파일，기호련결, 소케트파일, 
fifo 파일과 같은 비장치형파일클라스들과 련관되여있다는것을 알수 있다. 

etc _ number _ t 는 / etc 안에 있는 어떤파 일에 대 한 형 이 다. (파일 file _ contexts 안에 있 
는 《 etc _ runtime _ t > 에 대 한 grep ) 
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undefine (' in _ user_role ’ ) 
define rin _ user _ role ’ ， ' 
role user_r types $1； 
role staff_r types $1； 

，) 

마크로 in _ user _ role 을 정의한다. 도메인은 임의의 사용자역할 ( role ) 로 사용될수 
있다. 마크로는 관계가 있는 도메인의 . te 파일에서 호출되여야 한다. 파일 passwd.te 
를 주의 해 보자. ( passwd 프로그람에 대 한것 ) in _ user _ role 마크로가 호출되 며 그것 을 통 
과하는 passwd.t 파라메터 를 가지 고있 다. 
role user_r types passwd_t ； 
role staff_r types passwd _ t ； 

1 祀 61 *_ 1 *와 staff _ r 가 passwd 프로그람을 실 행할수 있 다는것 을 의 미 한다는것 을 알수 
있다. 만일 새 역할을 추가하려면 여기에 in _ user _ role 을 편집해야 한다. 

4) 체계관련파일들 

여기서는 sysadm_r 역할 즉 체계관리자와 관련한 방책을 보기로 한다. 앞에서 이 
미 SELinux 신분이 sysadm _ r 을 위 임받을수 있는가를 보았다. 
admin _ macros . te 파일 

이 파일은 체계관리자도메인에 대한 마크로를 포함한다. 
undefine (' admin_domain ’ ) 
define r admin_domain ’， ' 

# Inherit rules for ordinary users . 
user_domain ($1) 

마크로 admin _ domain 을 정의하고 그것이 11361*_1:와 같은 규칙을 가지도록 한다. 
이 경우에 $1은 sysadm 일것 이 다. 

allow $ l_t policy _ config _ t : dir { getattr search } ； 
allow $ l_t policy _ config _ t : file getattr ； 

sysadm _ t 가 policy _ config _ t 인 형을 가지고있는 등록부안에서 파일 및 등록부탐색 
이나 getattr(ls -1 과 같은것)을 하도록 허락한다. 
allow $ l_t kernel」::system syslog _ read ； 

sysadm _ t 가 체계일지를 읽게 한다. kernel 」^ 핵 심부 그자체의 형 이 다. system 
은 연산의 클라스이 다. 연산은 syslog 를 읽으러고 한다. 

# Use capabilities other than sys _ module . 
allow $ l_t self : capability ~ sys _ module ； 

sysadm _ t 가 sys _ module 외에 모든 자격을 사용하도록 한다. 그것은 모듈적재에 
사용된다. 
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# Get security policy decisions . 
can_getsecurity ($ l _ t ) 

만일 파일 core _ macros . te 를 주시 해 보고 can_getsecurity 를 람색 하면 다음과 같 
은것을 볼수 있다. 

# can_getsecurity ( domain ) 

# 

# Authorize a domain to get security policy decisions . 

# 

define (' can _ getsecurity ',' 

allow $1 security _ t：dir { read search getattr If 
allow $1 security」;:file { getattr read write } ； 

allow $1 security _ t : security { check_context compute_av compute_create 
compute_relabel compute_user } : 

’) 

여기서 $1 에 형 security_t (사용자의 방책 원천등록부)인 등록부에 대한 속성얻기 
및 읽기，탐색이 허가된다. $1은 형 security_t 인 등록부에 있는 파일을 읽기 및 쓰기 
하고 속성을 얻을수 있다. 

마지막으로 $1은 문맥유효성을 검색할수 있고 방책이 원천문맥이 목표문맥을 호출 
하게 하는가를 검사하며 새 오브젝트의 표식화에 대한 문맥을 계산하고 오브젝트를 재표 
식화할 때 새 문맥을 계산하고 어떤 사용자문맥 이 주어진 원천문맥으로부터 영향을 받는 
가를 결정한다. 

# Change system parameters . 
can _ sysctl ($ l _ t ) 

sysadm_t 는 sysctl 파라메터 를 변경 할수 있 다. 그것 은 기 초적 으로 / proc/sys 에 있 
는 모든것 이 다. 

만일 지령 

grep " type . * sysctl_type policy , conf 
를 실행하면 속성 sysctl_type 를 가지고있는 형을 볼수 있다. 
f ile_contexts 파 일 

이 file_contexts 과일은 보안방책이 설치될 때 체계에 파일을 적용하는 보안문맥을 
포함한다. 

이 파일은 setfiles 프로그람에 의해서 읽어진다. 그러고 파일을 표식하는 정보를 사 
용한다. 

# The security context for all files not otherwise specified . 

/ . * system _ u : object _ r : file_t 
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이 행은 특수한 보안문맥을 가지고있지 않는 파일에 대한 보안문맥을 설정한다. 
system _ u 는 체계프로쎄스와 데몬 ( daemon ) 에 대한 신분이며 체계에 의해 속해있는 파 
일에 대한 기정신분이다. 

# The root directory . 

/ -d system _ u : object _ r : root_t 

실제적인 뿌리등록부 (_d 가 기입됨)에 대한 root _ t 의 형을 가진 문맥을 설정한다. 
/ mnt 와 /initrd 역시 형 root _ t 를 가지고있다. 

/ home /[7] + -d sy stem _ u : ob ject _ r : user _ home _ dir_t 

/ home / [7] +/. + system _ u : object _ r : user _ home_t 

실지 / home 등록부에 대해서 user _ home _ dir _ t 로 형을 설정한다. 그 아래에 있는 
파일에 대 해 서 는 user _ home _ t 로 설정 한다. 

독자는 이 파일에서 그 밖의 모든것에 대하여 일반적인 리해를 할수 있다. 그리고 
규칙적인 표현에 대한 리해를 가질수 있을것 이다. 

d 는 등록부와 련관되여있다. 아무것도 목록화되여있지 않으면 정합되는것이 없다는 
것을 의미한다. 만일 당신이 《Is -1》지령을 실행하면 출력문의 첫 항목에서 문자는 
중간항목에 서 나타나는것 이 다. 그래서 어 떤것 이 기 호련결이 였 다면 블로크장치 를 비 롯해 
서 -1， - b 를 보게 된다. 

5) 형등록부 (types directoriy ) 

이 등록부는 형정의를 포함하는데 다음의 파일들로 나누어진다. 
device , te 

이 파일은 장치말단의 형을 포함한다. 
type device _ t , file _ type ； 

이 행은 / dev 에 대한 형 device _ t 를 정의한다. file _ type 는 등록부와 파일에 모든 
형에 대해서 사용되는 속성이다. 

만일 파일 file_context 에서 /dev 를 탐색 하면 그 형이 device _1^ 설정 되여 있는것 
을 볼수 있다. 

type null _ device _ t , file _ type , device _ type , mlstrustedobject : 

/ dev / null 에 대해서는 형 null _ device _ t 를 정의한다. device _ t 속성은 장치말단에 
할당된 모든 형을 정의한다. Mis 믿음오브젝트는 여기서 사용되지 않는다. 
devpts.te 

이 파일은 가상 ( pseudo ) 竹 ys 에 대한 형을 포함한다. 
type devpts _ t , fs _ type , root _ dir _ type : 

devpts 파일체계 ( devpts _ t ) 의 형을 설정하고 그 파일체계의 뿌리등록부의 형을 설 
정 한다. 
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file.te 

파일의 형을 포함한다. 

type unlabeled _ t , sysadmfile ； 

표식화되지 않은 오브젝트는 형 unlabeled _ t 를 가지고있다. 만일 방책을 변경하여 
형정의를 제거할 때에는 그 형을 사용하는 모든것이 표식화되지 않는다. 
network , te 
망의 형을 포함한다. 
type netif _ t , netif _ type ； 
type netif _ ethO _ t , netif _ type ； 
type netif _ ethl _ t , netif_type ； 
type netif _ eth2 _ t , netif _ type ； 
type netif _ lo _ t , netif _ type ； 
type netif _ ipppO _ t , netif _ type ； 
netif 형은 망대면부에 사용된다. 
nfs.te 

NFS 사용에 대한 형을 포함한다. 
type nfs _ t , fs _ type , root _ dir_type ； 

nfs _ t 는 NFS 파일체계와 그 파일들에 대한 기정형이다. NFS 파일체계의 뿌리등록부 
를 형이 nfs _ t 가 되게 설정한다. 
proofs , te 

이 파일은 proc 파일체계에 대한 형을 포함한다. 
type proc _ t , fs 一 type , root _ dir 一 type ; 
type proc _ kmsg _ t ； 
type proc _ kcore _ t ； 

proc _ t 는 proc 파일체 계의 형이다. Proc _ kmsg 는 / proc / kmsg 에 대한 형이다. 
proc _ kcore _ t 는 / proc / kcore 에 대 한 형 이 다. 
security , te 

이 파일은 SELinux 에서 보안 stuff (자료)에 대한 형을 포함한다. 

type security 」;, fs _ type ； 

type policy _ config _ t , file _ type ； 

type policy _ src _ t , file_type ； 

security _ t 는 보안클라스에서 권한을 검사할 때 목표형 이 다. policy _ config _ t 는 /e 
tc / security / selinux /* 의 형이며 policy _ src _ t 는 
/ etc / selinux /* 에 대한 형이다. 

6 ) 마크로등록부 
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우리는 이미 파일 user _ macro . te 와 admin _ macros . te 를 취급하였다. 마크로등록 
부에서 두개의 서로 다른 파일은 core _ macros . te 와 global _ macros . te 이 다. 
core _ macro . te 

이 파일은 자주 변경되지 않는 마크로를 포함하고있으며 그것들을 변경하지 않을것 
을 권고한다. 그것은 핵심부관련방책 이 방책을 공유하려는것과 같기때문이다. 이 파일에 
서의 변경은 자신의 방책을 모든 사람이 다 사용하게 하는 불합리성을 자진다. 이 파일 
을 변경하였다면 이것은 독자가 다른 사람과 서로 다르게 작업하는 체계를 가지는것으로 
될것이며 그것은 그리 흥미가 없다. 

이 파일에 포함된 마크로의 일부는 클라스들과 허용권한들 ( permission ) 의 그룹화에 
대 한 마크로들이다. 

define (' dir _ file _ class _ set ' , '{ dir file lnk_file sock_file fifo_file chr_file b 
lk_file }’) 

이 행은 마크로 dir _ file _ class 를 정의한다. 이 마크로는 클라스 dir (등록부용)， 
file (파일용), lnk _ file (기호련결용), sock _ file ( Unix 도메인소케트용), fifo _ file(pipes 
로 이름지 어진것), chr _ file (문자블로크장치용), blk _ file (블로크장치용)을 포함한다. 
define (' rw _ file _ perms ' , '{ ioctl read getattr lock write append }’) 

이 파일은 허용권한 ioctl , read , getattr 그리고 lock , write , append 를 포함하 
는 rw _ file _ perms 마크로를 정의한다. 
global _ macros . te 

이 마크로는 체계전반에 대한 마크로를 포함한다. 특수방책파일로 묶어져있는것을 
의미하지 않는다. 

define (' can_setexec ’， ' 

allow $1 self ： process setexec : 

allow $1 proc _ t : dir search ; 

allow $1 proc _ t ： { file lnk_file } read ； 

allow $1 self：dir search ； 

allow $1 self：file { read write }; 


마크로 can _ setexec 를 정의한다. $1 은 실행문맥을 설정할수 있다. 그래서 그것은 
자식프로쎄스의 문맥을 설정 할수 있다. 

$1은 / proc 를 탐색하고 그 등록부에 있는 파일과 기호련결들을 읽을수 있다. 
macros/program 등록부 

이 program 보조등록부는 사용자마다 ( per - user ) 역할방책을 필요로 하는 프로그람 
에 대한 추가마크로를 포함한다. ssh 와 같은 프로그람들은 사용자마다 역할방책을 요구 
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한다. 그것은 파생 도메 인 이 사용자도메 인호출에 기 초하고있기 때 문이 다. 

만일 ssh _ macro . te 를 주시해보면 다음과 같은것을 볼수 있다. 
define (' ssh_domain ’, ' 

# Derived domain based on the calling user domain and the program , 
type $ l _ ssh _ t , domain , privlog ； 

만일 user _ t 가 호출사용자도메인이였다면 파생도메인은 user _ ssh _ t 일것이다. 마찬 
가지 로 staff _ t 가 호출사용자 도메 인 이라면 staff _ ssh _ t 는 파생 도메 인일것 이 다. 

행 

domain _ auto_trans ($ l _ t , ssh _ exec _ t , $ l _ ssh _ t ) 

는 호출도메 인으로부터 파생 도메 인으로 전환을 허 락한다. 

7) flask 등록부 

다음과 갈은 파일을 포함하고있다. 

Access_vectors 

이 파일은 다양한 콜라스에 대해 집행할수 있는 동작을 정의한다. 파일클라스에 대 
해서 사용자는 읽기, 쓰기, 련결 등과 같은 동작을 진행한다. 소케트클라스에 대해서 결 
합 ( TCP 와 UDP 소케트와 같은 소케트를 결합)，접속호출 ( listen ), 접속 기타 등등과 
갈은 동작들을 집 행 할수 있다. 
initial_sids 

이 파일은 초기의 SID (보안식별자)들을 정의한다. 오랜 SELinux 에서 SIDS 는 핵 
심부에 대한 리용자공간대면부에서 쓰이였다. PSID (완고한 SID ) 들은 디스크상의 파일 
과 등록부들에 대한 문맥들로 파일을 배치하는 핵심부코드에 리용되였다. 새로운 
SELinux 에서 확장된 속성들은 문맥을 포함하고있으므로 SID 들과 PSID 들은 더 이상 
필요없다. 비록 새로운 SELinux 가 확장속성을 리용하여도 일부초기문맥들은 여전히 
체계가 시동할 때 정의되여야 한다. init _ sids 파일은 초기의 SID 상수들을 포함한다. 보 
안방책원천등록부에서 파일 initial _ sid 문맥들은 이 초기 SID 들을 문맥들로 배치된다. 아 
래에 실례를 보여준다. 

sid kernel system _ u : system _ r : kernel_t 

sid security system _ u : object_r ： security_t 

첫번째 행은 핵심부의 초기 SID 를 정의하며 system _ u : system _ r : kernel_t 의 문 
맥을 엄는다. kernel_t 은 일반적 인 핵심부코드의 형 이다. 두번째 행은 security _ t 가 / 
selinux 파일체계에 대한 형인 system _ u : object _ r : security _ t 의 문맥으로 sid securi 
ty 를 준다. 

security_classes 

이 파일은 보안객 체 클라스들을 정의 한다. 이것 들은 파일들과 망환경 ( networking ) 
과 갈은것들에 대한 클라스들이다. 
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8 ) 보안방책의 편집 

보안방책을 편집하는 가장 좋은 방도는 그 모두를 정확히 실행시켜보는것이다. 먼 
저 다른 방책 들이 / etc / selinux / domains / program / 이미 씌 여 있으며 해 당 file_conte 
xts 파일이 / etc / selinux / file _ contexts / program / 에 있는가를 확인한다. 

아래에서는 보안방책을 편집하려고 하는 때에 알아두어야 할 몇가지 비결에 대하여 
서 술한다. 

변화시키고 편집하려는것을 명백히 한다. 

변화시키려고 하는것에 대한 리해를 잘하는것이 중요하다. 실례로 user _ r 역할에서 
리용자들이 기정설정에서 허가되지 않은 어떤 등록부를 볼수 있도록 하려는것과 같은 허 
가하려는 동작이 있는가? domain / 들이 무엇을 포함하는가? 어떤 마크로들을 호출하려 
고 하는가? 현존 규칙들을 보고 문법의 사상을 얻는다. 마크로등록부에 있는 마크로들 
을 찾아보고 그것들이 무엇을 하는가를 알아낸다. 

전용화하는 규칙을 가진 파일을 생성한다. 

보조등록부 domains / misc / 에 custom , te 라고 하는 파일을 가지고있다. (자신의 보안 
방책원천등록부아래에) 이 파일에 독자가 하려고 하는것에 대하여 전용화된 자기 자신의 
규칙들을 포함시킨다. 독자는 이 파일을 시험재료로 러용할수 있다. 

핵심부통보문을 리해한다. 

만일 원하지 않던 일이 일어나면 핵심부통보문을 검토한다. 보안방책을 쓰는데서 많 
은 품이 드는것은 일지기록들을 연구하고 그 다음 규칙들을 추가하거나 변경하여 일지기 
록들에 렬거된 오유들을 소거하는것이다. 실례로 sta 打 _ t 가 tcpdump 를 실행하려고 하 
는데 그 조작이 거부되면 일지기록을 검토한다. 그러면 다음과 같은것을 볼수 있다. 

avc ： denied { create } for pid =17824 exe =/ usr / bin / traceroute . lbl scon 
text = faye : staff _ r : staff_t tcontext=faye 

: staffjr : staff_t tclass = rawip_socket 

여기서 우리는 staff _ t 도메인에서 누군가가 traceroute 지령을 실행하려고 하였다가 
거부되였다는것을 알수 있 다. 이 일지 통보문으로부터 우리는 traceroute 가 도메인 
staff _ t ^. 실행하고있었다는것을 알수 있지만 그것 이 경로추적 ( traceroute ) 할수 있는 특 
권도메인으로 실행되도록 하려고 한다. 우리가 하려고 하는것은 우리의 방책을 편집하여 
그것 이 형 traceroute _ exec _ t (경 로추적프로쎄 스용도메 인)를 실행 할 때 staff _ t 가 
traceroute _ t (이것은 우리가 traceroute 지령을 실행한 후 동작하는 traceroute 프로쎄 
스와는 반대로 실제적인 경로추적실행의 형이다.)로 이행하는것을 허용하는것이다. 

9) 기본적인 보안방책편집실례 

아래 에 서 보여 주는것 은 보안방책 을 편집 하는데 서 도움이 되 는 실 례 들이 다. 보안방책 
파일을 보관한 후 방책원천등록부에서 make load 를 실행하여야 한다는것을 명심하시오. 

user _ t 가 tcpdump 를 리용하도록 허가한다. 
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이 미 전용화파일(이 것 을 custom , te 이 라고 하자. )생 성 하지 않았으면 방책 원천등록부 
아래의 보조등록부 domains / misc / 에 그것을 생성한다. 다음의 행을 추가한다. 

# your own comment here 

domain _ auto_trans ( userdomain , netutils _ exec _ t , netu 仕 ls _ t ) 

in _ user_role (netu 吐 ls _ t ) 

allow netu til s_t user ： chr_file rw _ file _ perms : 

무엇보다 먼저 우리는 리용자도메 인(여기서 userdomain 은 가능한 모든 리용자도메 
인 즉 user _ t , staff _ t , sysadm_t 그리고 사용자가 가질수 있는 기 타 모든 리용자도메 
인들을 참조한다.)으로부터 실제적인 tcpdump 프로쎄스에 대한 도메인(이것이 
netutils _ exec_t 이다.)으로 이행할수 있게 하려고 한다. 첫번째 행은 리용자도메인이 
tcpdump 실행을 진행 할 때 자동적 인 이행 이 netutils _ t 인 tcpdump 프로쎄스도메 인으로 
진행된다는것을 보여준다 

in _ user_role 마크로 (파일 user _ macros . te 에 서 정 의된)는 파라메터(이 경 우 
netu 仕 ls _ t ) 로서 넘겨진 도메인이 모든 사용자역할들 ( user_r 와 staff _ i ^ 같이. 
sysadm _ r 은 관리자적인 ( administrative ) 역할이며 리용자역할은 아니다.)로 되는것을 
허가한다. 이 행은 역할 배아그와 도메 인 netutils _ t 의 어떤 결합이 보안문맥에서 유효 
하도록 하는데 필요하다. 

세 번째 행은 도메 인 netutils _ t 가 리 용자 pty 형들을 호출하도록 한다. netu1 ; ils _ t 는 
이 호출을 통하여 사용자가 자기의 말단장치로부터 읽거나 말단장치에 쓸수 있게 한다. 
chr _ file 은 말단장치 에 쓰기 하는데 쓰인다. 

련습 1: 이 행들을 가지고 진행한다. allow 행을 주석처리하고 방책을 다시 적재하 
고 tcpdump 를 시도한다. 일지기록을 통하여 아무것도 일어나지 않은것처럼 보이는 원 
인에 대하여 검토한다. 

련습 2： allow 행을 주석처리한채로 가상조작탁(이전에 xterm 을 리용하고있다고 가 
정하고)으로 절환하고 거기로부터 tcpdump 를 시도한다. 만일 명확히 tty 장치로부터 
tcpdump 접근을 허가하지 않았다면 그것이 일어나도록 시도한다. pty 장치로부터 
tcpdump 를 할수 있지만 竹 y 장치로부터는 할수 없다. 

user _ t 가 / etc / selinux / 등록부를 읽도록 허가한다. 

보통 독자가 비특권리용자들이 / etc / selinux / 에 무엇이 있는지 아는것을 원하지 
않지만 배우기 위한 목적으로 여기서는 이 실례를 고찰한다. 독자는 custom . te 파일을 
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편집하여 다음의 내용을 추가한다. 

# your comment here 
r _ dir_file ( user _ t , policy _ src _ t ) 

r _ dir _ file 파일은 그 바로 아래에 있는 등록부와 파일들을 읽는것을 허가한다. 
user_t 는 도메인이며 policy _ src _ t 는 / etc / selinux 의 형이다. 

련습 1: custom.te 을 편집하기 전과 후에 / etc / selinux 를 호출하여본다. (그리고 
방책을 다시 적재한다.) 무엇이 일어나는가를 보기 위해 일지기록들을 검토한다. 

련습 2： user_t 로부터 / boot 를 호출하여 본다. (permission denied 》 를 얻는가? 
user.t 가 이 등록부를 읽는것을 허 가하는 규칙을 생성 한다. 

새로운 형을 창조하기 

이 실례에서 우리는 custom . te 에 다음과 같은 행을 추가하여 우리자신의 새로운 파 
일형을 창조하고 그 다음 make load 지령을 실행한다. 

type ourtype _ t , file _ type , sysadmfile ； 

allow staff_t ourtype _ t：file { create _ file_perms relabelfrom re label to }; 

우리 는 < ourtype _ t > 로 불리우는 새 로운 형 을 정의 하고 그것을 속성 file _ type 와 
sysadmfile 로 하여 관리자가 그것을 호출할수 있도록 한다. 두번째 행은 staff _ t 가 형 
ourtype _ t 인 파일들에 완전한 접근을 가진다는것을 보여준다.(읽기와 쓰기 등 ) 
relabelfrom 와 relabelto 는 staff_t 가 또 다른 형으로부터 그리고 또 다른 형으로 형 
ourtype _ t 인 파일 들을 재 표식할수 있 다는것 을 의 미 한다. 

이제 staff _ t 역할로 새 파일을 생성한다. 다음과 같은 그 파일의 보안문맥을 검토하시 

오. 


fayeQkaos :~$ Is - Z foo 

- rw - r -- r — f aye f aye f aye : object _ r : staff _ home_t foo 
So we see file ’’ foo ” has the type staff _ home _ t . Now change that type t 
o ourtype _ t : 

faye8kaos :~$ chcon -t ourtype_t foo 
faye 通 kaos :~$ Is - Z foo 

- rw - r — r — f aye f aye f aye : object _ r : ourtype_t foo 

이제 우리가 방금 생성한 형을 제거하자. 다시 한번 custom . te 파일을 편집하여 방 
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금 추가한것을 주석처 리한다. 다시 make load 를 실행하고 파일의 속성을 본다. 
fayeQkaos :~$ Is - Z foo 
Is : foo ： Permission denied 

sysadm _ r 가 Is 와 같은 지령을 실행하면 다음과 같다. 

- rw - r — r -- faye faye faye : object _ r : ourtype_t / home/fay 

e/foo 

이제 서 파일 foo 에 접근하려고 할 때 일지에 기록된 오유에 대한 일지들 

을 검토하자. 

avc ： denied { getattr } for pid =29494 exe =/ bin/ls path =/ home / faye/fo 
o dev = md 7 ino =145445 scontext = faye : staff 

_ r ： staff_t tcontext = system _ u : object _ r ： unlabeled_t tclass=file 
목표문맥은 파일 foo 에 대하여 형 unlabeled _ t 를 포함한다는것을 명심하시오. 우리 
가 방책 으로부터 형 0 111卞가义_1를 제 거하였 다면 우리 가 그 형 으로 생 성하였 던 파일들이 
형 unlabeled _ t ^. 재표식된다. 비록 Is Z 가 형 이 ourtype_t 라고 보여주어도 핵심 
부는 ourtype _ t 가 방책 에 존재 하지 않으면 그것을 unlabeled _ t 5_ 간주한다. 
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제 8장. 체계관리 

제 1 절. 랙심부동기화 

핵심부는 어떤 요구에 응답하는 일종의 봉사기로 생각할수 있다. 핵심부에 대한 요 
구는 CPU 에서 실행중인 프로쎄스가 할수도 있고 새치기요구를 발생시키는 외부장치가 
할수도 있 다. 따라서 핵 심부에서는 경 쟁 상태 (race condition ) 가 발생 할수 있으며 적 당 
한 동기 화기 법 으로 이 것 을 조종해 야 한다. 

우선 어느 때 얼마나 많은 핵심부요구가 동시에 발생하는가에 대하여 설명한다. 그 
다음 핵심부에서 실현하는 기본적인 동기화기법을 소개하고 대부분의 일반적인 상태에서 
이것을 적용하는 방법을 설명한다. 마지막으로 몇가지 실례들을 설명한다. 

1. 핵심부조종경로 

앞에서 핵심부조종경로를 핵심부가 서로 다른 종류의 새치기를 처리하기 위해 실행 
하는 일련의 명령어라고 정의하였다. 매개의 핵심부에 대한 요구를 서로 다른 핵심부조 
종경로로 실행하고 매 핵심부조종경로는 보통 몇개의 핵심부함수를 실행한다. 례를 들어 
사용자방식프로쎄 스가 체 계호출을 요구하면 이 에 해 당한 핵 심 부조종경 로는 
system _ call () 함수에서 시작해서 ret _ from _ sys _ call () 함수(《새치기와 례외에서 되돌 
이》참고) 에 서 끝난다. 

앞에서 설명한것처 럼 여러가지 방법으로 핵심부요구가 발생한다. 

. 사용자방식에서 실행중인 프로쎄스가 례외를 발생시킨다. 례를들면 int 0 x 80 기호 
언어명령어를 실행하는 경우. 

■외부장치가 IRQ 선을 통해 프로그람가능한 새치기조종기 ( PIC：programmable 
interrupt controller ) 에 새치기신호를 보낼 때 해당 새치기를 허용하고있는 경우. 

■ 핵심부방식에서 실행중인 프로쎄스가 폐지절환 (page fault ) 례외를 일으키는 경 
우. (《 페 지 오유례 외 조종기》참고) 

■ 다중처 리 기 체 계 에서 핵 심 부방식 에 서 동작중인 프로쎄 스가 처 리 기 들사이 에 새 치 기 
를 발생시키는 경우. (《처리기간의 새치기처리》참고) 

핵심부조종경로는 프로쎄스와 비슷한 역할을 수행하지만 이것들이 매우 기초적인것 
이다. 

첫째로, 핵심부조종경로에는 서술자가 련결되지 않는다. 

둘째 로，핵 심 부조종경 로를 실 행하도록 순서짜기하는것 은 한개 의 함수로 이 루어 지 지 
않고 핵 심부코드중간에 들어있는 핵 심부조종경 로를 정지 하거 나 복귀 하게 하는 일 련의 명 
령어를 통해 이루어진다. 

제 일 간단하게는 CPU 가 핵심부조종경로를 첫 명 령 어부터 마지막명 령 어까지 차례 로 
실 행한다. 그렇 지 만 아래 의 사건들가운데 서 한가지 사건이 라도 발생하면 CPU 는 다른 
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핵 심부조종경 로를 끼워 넣 는다. 

• 프로쎄스절환 (process switch ) 이 발생 한 경우. scheduleO 함수를 호출할 때에 
만 프로쎄스절환이 발생한다. 

■새치기를 허용한 상태에서 CPU 가 핵심부조종경로를 실행하고있을 때 새치기가 
발생한 경우. 이 경우 이전핵심부조종경로를 끝나지 않은 상태로 둔채로 CPU 는 새 치기 
를 처리하는 다른 핵심부조종경로를 수행하기 시작한다. 

• 지연함수 (deferrable function ) 를 실행 하는 경우. 이미 앞에서 설명 한것처럼 새 
치기 발생이나 local _ bh _ enable () 함수를 호출하는것과 같은 여러가지 사건에 의 해 지연 
함수를 실행하게 된다. 

다중처 리 를 실현하려 면 핵 심 부조종경 로를 동시 에 실 행하는것 이 중요하다. 

《례외조종기와 새치기조종기의 동시실행》에서 설명한것처럼 동시실행은 프로그람가 
능한 새치기조종기와 장치조종기의 효률을 높인다. 핵심부조종경로를 동시에 실행할 때 
에는 완충기와 그 길이를 나타내는 정수형변수같은 서로 련관된 성원변수를 포함하는 자 
료구조체를 사용하는 경우에 특히 주의해 야 한다. 이런 자료구조체 에 영향을 미치는 모 
든 코드는 제 한된 령 역 (critical region ) 에 들어 가야 한다. 그렇 지 않을 경 우 자료구조 
체가 혼동이 될수도 있다. 

앞에서 설명한것처 럼 Linux 핵심부는 비선취형 이 다. 즉 프로쎄스가 핵심부방식에서 
실행 중인 동안에 는 선취 (우선순위 가 더 높은 프로쎄 스로 교체 하는것 ) 할수 없다. 

다음표는 선취 조종을 위 한 prempt_count 의 성 원마크로들이다. 

마크로 기능 


preempt_cou 
nt ( ) 


tHRead_info 서술자에서 preempt_count 를 선택 한다. 


preempt_disa 
ble ( ) 


선취계수기의 값을 하나 증가한다. 


preempt_ena 선취계수기의 값을 하나 감소한다. 

ble _ no_resch 

ed ( ) 


preempt_ena 
ble ( ) 


선취계수기값을 하나 증가하고 比 iread_info 서술자에서 
TIF _ NEED_RESCHED 기발이 설정되였다면 preempt _ schedule ( ) 함 
수를 호출한다. 
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get _ cpu ( ) preempt_disable ( ) 과 비슷하지만 국부적인 cpu 개수를 되돌린다. 


put_cpu ( ) preempt_enable ( ) 과 같다. 


put _ cpu _ no_r 
esched ( ) 


preempt _ enable _ no_resched ( )와 같다. 


특히 Linux 는 다음의 원칙을 항상 준수한다. 

• 핵심부방식에서 실행중인 프로쎄스가 자발적으로 CPU 에 대한 조종권을 되돌리지 
않는 이상 이것을 다른 프로쎄스로 교체하지 않는다. 

• 새치기나 례외, 프로그람적인 새치기를 처리하려고 핵심부방식에서 실행중인 프로 
쎄스를 중단할수는 있지만 조종기를 마치면 해당 프로쎄스의 핵심부조종경로로 복귀한다. 

-지 연함수나 체 계 호출봉사루린을 실 행 하는 핵 심 부조종경 로를 실 행 하려 고 새 치 기 를 
처 리하는 핵심부조종경로를 멈출수 없다. 

때문에 단일처러기체계에서 차단 ( block ) 을 일으키지 않는 체계호출을 처리하는 핵 
심부조종경로는 체계호출에 의해 시작한 다른 핵심부조종경로를 그대로 리용한다. 

이것은 많은 핵심부함수를 쉽게 실현할수 있게 한다. 새치기나 례외, 프로그람적인 
새치기조종기가 갱신하지 않는 모든 핵심부자료구조체에 안전하게 호출할수 있다. 

그러나 핵심부방식에서 동작중인 프로쎄스가 자발적으로 CPU 에 대한 조종권을 되 
돌린다면 모든 자료구조체를 정확한 상태로 보존해야 한다. 또한 실행을 다시 시작할 때 
에는 이전에 사용한 자료구조체의 값이 수정되였을수도 있으므로 그 값을 다시 검사해야 
한다. 자료구조체는 서로 다른 프로쎄스의 문맥에서 실행한 다른 핵심부조종경로에 의해 
( 때로는 같은 코드를 실행했을수도 있다.)수정될수 있다. 

다중처리기체계에서는 모든것이 훨씬 더 복잡하다. 많은 CPU 가 동시에 핵심부코드 
를 실행할수 있기때문에 핵심부개 발자는 어떤 자료구조체를 새 치기 나 례외 , 프로그람적 
인 새치기조종기에서 절대로 변경하지 않아도 이것을 안전하게 호출할수 있다고 가정할 
수 없다. 

이 장의 나머지 부분에서 동기화가 필요할 때 무슨 일을 해야 하는가, 즉 공유하는 
자료구조체 를 호출하다가 자료를 파피 하는것을 어떻게 막을것 인가를 설명 한다. 

2. 동기화기법 

앞에서 프로쎄스에서의 경쟁상태와 제한령역을 소개하였다. 이와 똑같은 정의를 핵 
심부조종경 로에 대 해서도 할수 있다. 핵 심부에서는 둘이상의 핵 심부조종경 로가 어떻게 
겹치는가에 따라 계산결과가 다르게 나올 때 경쟁상태가 발생한다. 

《 제 한령 역 (critical region ) 》은 핵 심 부조종경 로가 시 작되 면 다른 핵 심 부조종경 로가 
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시작하기 전에 완전히 수행을 마쳐야 하는 모든 코드령역을 말한다. 이제 공유자료사이 
에서 일어날수 있는 경쟁상태를 피하면서 핵심부조종경로를 동시에 실행하는 방법을 보 
자. 표 5-1 에 Linux 핵심부에서 사용하는 동기화기법을 표시하였다. 표에서 《범위》렬 
은 그 동기화기법이 체계에 있는 모든 CPU 에 적용되는가 아니면 한 CPU 에만 적용되 
는가를 나타낸다. 례를 들어 국부새 치기를 금지하는것은 한 CPU 에만 적용된다. (체계에 
있는 다른 CPU 는 영 향을 받지 않는다.) 반대로 원자적인 연산은 체계 에 있는 모든 
CPU 에 적 용된다. (원자적인 연산을 사용하면 여 러 CPU 가 같은 자료구조체 에 호출하더 
라도 이것이 겹치지 않는다.) 


8-1. 핵심부7 F A 磨하는 다양한 종류의 동7[화71법 


기 법 

설 명 

범 위 

개별적 CPU 변수 

CPU 들에 대한 자료구조체를 중복 

모든 CPU 

원자적인 연산 

계 수기 (counter) 에 원 자적 인 읽 기 / 
수정/쓰기 명 령 

모든 CPU 

기억기장벽 

명령어를 재배치하는것을 막기 

국부 CPU 

스핀 잠그기 

바쁘게 기다리는 잠그기 

모든 CPU 

신호기 

대 기(잠자기)를 차단하며 잠그기 

모든 CPU 

국부새 치 기 금지 

한 CPU 의 새 치 기 처 리 를 금지 

국부 CPU 

국부프로그람적새치기 
금지 

한 CPU 의 지 연함수처 리 금지 

국부 CPU 

읽기-복사-갱신 (RCU) 

지 시 자를 통해 서 공유된 자료구조체 

에 대한 접근을 잠그기 해제 

모든 CPU 


이제 매개의 동기화기법을 간단히 보자. 나중에 《핵심부자료구조체로의 호출동기 
화》에서 핵심부자료구조체를 보호하기 위해 이런 동기화기법을 어떻게 결합하는가를 설 
명 한다. 

1) 개별적 CPU 변수리용 

첫 단계에서 동기화에 대한 필요성을 피하지 않는한 핵심부설계에서 제일 좋은 동기 
화기법으로 되고있다. 앞으로 보겠지만 실제로 모든 동기화기법들은 수행률이 중요하다. 
개별적인 CPU 변수들을 핵심부변수로 선언함으로써 가장 간단하고 그중 효과적인 동기 
화기법으로 된다. 기초적으로 매 CPU 변수는 체계에서 하나의 CPU 에 해당한 하나의 
원소인 자료구조체배럴로 된다. 
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하나의 CPU 는 다른 CPU 들에 따르는 배렬원소들에 접근할수 없어야 한다. 다시 
말해서 경쟁상태에 대한 고려가 없이 자기의 원소를 자유롭게 읽고 변경시킬수 있게 한 
다는것 이 다. 해 당 CPU 에 게 만 그렇 게 할 자격 을 주어 야 하기 때 문이 다. 

이것은 또한 체계의 CPU 들에 대한 자료를 론리적으로 갈라보면 개별적인 CPU 변 
수들을 기 본적 으로 특별 한 경 우에 만 리 용할수 있 다는것 을 의 미한다. 매 CPU 배 렬 의 원 
소들은 주기억기에 차례로 들어가 매 자료구조체가 하드웨어캐쉬의 서로 다른 흐름상에 
놓이도록 한다. 

그러므로 개별적인 CPU 배럴에 대한 동시접근은 캐쉬흐름조사와 무효화의 결과를 
낳는다. 이것은 체계동작에서 품이 드는 조작이라고 볼수 있다. 개별적인 CPU 변수들은 
여러개의 CPU 들로부터의 동시접근에 대해 보호를 제공하지만 비동기적인 함수들(새치 
기처리기와 지연함수들)로부터의 접근에 대한 보호는 제공하지 않는다. 이 경우에 추가 
적인 동기화기법들이 요구된다. 

더우기 개별적 인 CPU 변수들은 단일처 러소자체계와 다중처 리소자체 계 에서 다 핵심 
부선취권에 의해 경쟁상태에 자주 부닥치게 된다. 일반적인 규칙으로 보면 핵심부조종경 
로는 핵심부선취를 불가능하게 하고 개별적인 CPU 변수들에 접근해야 한다. 구체적으로 
본다면 핵심부조종경로가 매 CPU 변수들의 국부복사주소를 얻을 때 무슨 일이 일어나는 
가를 정 확히 보고 다음 다른 CPU 에 선취하여 이동할 때 주소는 이 전 CPU 의 원소를 
계속 참조한다. 

표 8-2 은 개별적 CPU 들에 대한 가변성을 리용하기 위해 핵심부에서 제공하는 주요 
함수들과 마크로목록이다. 


표 8 - 2 . _ 개별적인 cpua 十 -g 이 ᅵ 대한 a 수와 마크로 들 


마크로, 함수이름 

설 명 

DEFINE_PER_CPU (type, n 

ame) 

표준자료구조체 의 이 름으로 불리 우는 개 별적 인 CPU 
배럴을 정적으로 할당한다. 

Per cpu(name, cpu) 

CPU 원소를 개 별적 인 CPU 배 렬이 름으로 선택 한다. 

_get_cpu_var (name) 

매 CPU 배 렬 이 름중 국부 CPU 원소를 선택한다. 

Get_cpu_var (name) 

핵 심 부선 취 를 불가능하게 하고 매 CPU 배 렬 이 름중 
국부 CPU 의 원소를 선택한다. 

Put cpu var (name) 

핵 심 부선 취가능 (이름은 리 용 안됨 ) 

alloc_percpu (type) 

표준자료구조체의 개별적 CPU 배럴을 동적으로 할당 

하고 그의 주소를 되돌린다. 

F ree_percpu (pointer) 

주소지시자에 동적으로 할당된 개별 CPU 배럴을 해제 


676 


透資邊 @資變©^ 











체 8 장. 



한다. 

Per _ cpu_ptr ( pointer , cpu ) 

주소지시 자에 개 별 CPU 배 렬중 CPU 원소의 주소를 
되돌린다. 


2 ) 원 자적인 연산 

여러가지 기호언어명령어는《읽기/수정/쓰기》류형이다. 즉 기억기주소를 두번 호 
출하면서 처음에는 이전값을 읽고 다음에는 새로운 값을 쓴다. 두 CPU 에서 두개의 핵 
심부조종경로가 원자적이지 않은 연산을 사용하여 동시에 같은 기억기주소에 《읽기/수 
정/쓰기》를 실행한다고 하자. 먼저 두 CPU 는 똑같은 기억기주소를 읽으러고 시도하면 
《기억 기중재자 (memory arbiter , 주기 억 기소편에 대한 호출을 직렬 화하는 하드웨어 회 
로)》가 이것들가운데서 하나에만 호출을 허가하고 다른 CPU 의 호출을 지연한다. 그러 
다가 첫번째 읽기동작이 끝나면 지연된 CPU 는 갈은 값(이전값)을 해당 기억기주소에서 
읽는다. 다음으로 두 CPU 가 모두 똑갈은 값(새로운 값)을 해당 기억기주소에 쓴다. 
다시 기억기중재자가 나서서 모선기억기로의 호출을 직렬화하고 마침내 두번의 쓰기작업 
이 모두 성공한다. 

그런데 두개의 CPU 가 모두 똑갈은 값(새로운 값)을 기록했으므로 결과는 잘못된것 
이 다. 

그 결과 중첩된 두《읽기/수정/쓰기》연산은 마치 하나인것처럼 된다. 

《읽기/수정/쓰기》명령어에 의한 경쟁상태를 막을수 있는 가장 쉬운 방법은 이런 
연산을 소편 ( chip ) 준위에서 원자적으로 처리하는것 이다. 이런 연산은 중간에 방해받거 
나 다른 CPU 가 똑같은 기억기주소에 호출하지 못하게 만들어 한개의 명령어로 실행해 
야 한다. 제 한령역 을 만드는 좀 더 유연한 다른 기구의 기 반으로 이 런 매우 적은 수의 
원자적인 연산을 사용하는것 을 볼수 있 다. ( atomic , h ) 

이제 이 분류에 따라 Intel 80 x 86 명령어를 살찌보자. 

• 기억기를 호출하지 않거나 정렬된 호출을 한번 하는 기호언어명령어는 원자적이다. 

■ inc 나 dec 같이 기억기에서 자료를 읽고 갱신하고 기억기에 다시 쓰는 읽기/수정/ 

쓰기 기호언어명령어는 읽기와 쓰기사이에 다른 처리기가 기억기모선를 점유하지 않는 
한 원자적이다. 단일처리기 ( uniprocessor ) 체계에서는 기억기모선를 가로채는 일이 발 
생하지 않는다. 

• 연산코드앞에 lock 바이트 ( OxfO ) 앞붙이가 붙은 읽기/수정/쓰기기호언어명령어는 
다중처 리기체계 에서도 원자적 이다. 조종장치는 이것을 앞붙이를 만나면 명 령 어수행을 끝 
마칠 때까지 기억기모선을 잠그기한다. 따라서 잠그기가 걸린 명령어를 실행하는 동안에 
는 기억기를 다른 처리기가 호출할수 없다. 
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• 조종장치가 같은 명령을 여러번 반복할수 있도록 하는 rep 바이트 (0 xf 2, 0 xf 3) 
앞붙이가 연산코드앞에 불은 기호언어명령어는 원자적이지 않다. 

조종장치는 다음 반복을 시작하기 전에 대기중인 새치기가 있는가를 검사한다. 

C 코드를 작성할 때 a = a + l 이나 또는 a ++ 와 같은 연산을 사용해도 콤파일러가 이것 
들을 원자적인 명령어를 사용하도록 코드를 생성한다고 장담할수 없다. 따라서 Linux 
핵 심부는 특별히 atomic _ t 형 (원자적 으로 호출할수 있는 24 bit 계수기)과 actomic _ t 변수 
를 가지고 동작하고 원자적인 한개의 기호언어명 령 어로 실행되는 특별한 함수를 제공한 
다. (표 8-3 참고) 다중처 리기체 계 에서는 매 명 령 어 앞에 lock 앞붙이 가 붙는다. 


■ 8-3. Linux 에서의 원자적인 안산 


함 수 

설 명 

Atomic read ( v ) 

다를 되돌린다 

Atomic set ( v , i ) 

다를 i 로 설정한다 

Atomic add ( I , v ) 

다에 i 를 더한다 

Atomic sub ( I , v ) 

다에서 i 를 던다 

Atomic _ sub _ and_test ( i , v ) 

다에서 i 를 던 후 결과가 0이면 1, 0이 아니면 

0 을 되돌린다 

Atomic inc ( v ) 

* v 에 1을 더한다. 

Atomic dec ( v ) 

다에서 1을 던다. 

Atomic _ dec _ and_test ( v ) 

다에서 1을 던 후 결과가 0이면 1, 0이 아니 
면 0을 되돌린다. 

Atomic _ inc _ and_test ( v ) 

다에 1을 더한 후 결과가 0이면 1, 0이 아니 
면 0을 되돌린다. 

Atomic _ add_negative ( i , 
v ) 

* v 에 i 를 더한 후 결과가 부수이면 1, 부수가 
아니면 0을 되돌린다 

atomic _ inc_retu rn ( v ) 

다에 1을 더하고 다의 새값을 되돌린다. 

atomic dec return ( v ) 

*v 에서 1을 덜고 * v 의 새 값을 되돌린다. 

atomic _ add_return ( i , v ) 

다에 I 를 더하고 다의 새값을 되돌린다. 

atomic _ sub_return ( i , v ) 

다에서 I 를 덜고 다의 새값을 되돌린다. 
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비 트마스크 (bit mask ) 에 동작하는 다른 부류의 원자적 인 함수도 있다. (표 8-4 참 
고) 이런 경우 비트마스크는 일반정수변수이다. 


표 8-4. _ Linux 에서 비트를 다幸는 원자적인 함수 


함 수 

설 명 

test bit ( nr , addr ) 

* addr 의 n 번째 비트값을 되돌린다. 

set bit ( nr , addr ) 

的 ddr 의 n 번째 비트를 1로 설정한다. 

clear bit ( nr , addr ) 

* addr 의 n 번째 비트를 0으로 지운다. 

change bit ( nr , addr ) 

* addr 의 n 번째 비트값을 반전시킨다. 

test _ and _ set_bit ( nr , ad 
dr ) 

* addr 의 n 번째 비트를 1로 설정하고 이전값을 되돌린다. 

tes t _ and_c 1 ear_bit ( nr , 
addr ) 

* addr 의 n 번째 비트를 0으로 지우고 이전값을 되돌린다. 

test _ and _ change_bit (n 
r , addr ) 

* addr 의 n 번째 비트값을 반전시키고 이전값을 되돌린다. 

atomic_c 1 ear_mask (ma 
sk , * addr ) 

addr 에서 mask 로 지정한 비트를 모두 0으로 지운다. 

atomic _ set _ ( mask , *add 
r ) 

addr 에서 mask 로 지정한 비트를 모두 1로 설정한다. 


3) 기억기장벽 

최적화를 하는 름파일러를 사용할 때에는 원천코드에 나와있는 순서대로 명령어가 
실행되지 않는다. 례를 들어 를파일러는 등록기를 사용하는 방법을 최적화하는 방식으로 
기호언어명령어의 순서를 바끌수 있다. 나가서 최근의 CPU 는 대부분이 여러개의 명령 
어를 병렬로 실행하여 기억기호출순서를 바끌수도 있다. 이런 식의 재배치를 통하여 프 
로그람의 실행속도를 크게 향상시킬수 있다. 그렇지만 동기화를 다룰 때에는 명령어를 
재 배 치 하는 일을 피 해 야 한다. 

사실 모든 동기 화함수는 기 억 기 장벽역 할을 한다. 동기 화함수의 다음번에 있는 명 령 
어를 동기 화함수보다 먼저 실행 한다면 뜻박의 결과를 초래할수 있다. 《 기 억기 장벽 
(memory barrier ) 》기초함수는 그 이후에 있는 작업을 시작하기 전에 이전에 있는 작 
업을 끝마치게 한다. 따라서 기억기장벽은 어떤 기호언어명령어도 통과할수 없는 방화벽 
과 비슷하다. 

80 x 86 처리기에서 다음과 갈은 종류의 기호언어명령어는 기억기장벽의 역할을 하기 
때문에 《직렬화》한다고 말한다. 
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• 입출력포구에 동작하는 모든 명령어 

• lock 앞붙이 가 불은 모든 명 령 어 (《원자적 인 연산》참고) 

• 조종등록기나 체계등록기, 오유수정등록기에 쓰기를 하는 모든 명령어(례를 들어 
eflags 등록기의 IF 기발의 상태를 바꾸는 c\m s 仕명령어) 

• 몇가지 특별한 기호언어명령어 

이 가운데서는 새치기나 례외조종기를 끝마치는 iret 명령어가 있다. 

Linux 는 표 8-5 에 있는 기억기장벽을 의한 기초함수 6개를 사용한다. 

《읽기용기억기장벽》은 기억기에서 읽기를 수행하는 명령어에만 동작하고 《쓰기용 
기 억 기 장벽》은 기 억 기 에 쓰기 를 수행 하는 명 령 어 에 만 동작한다. 

기 억기장벽은 다중처 리기체계와 단일처 리 기체계 에서 모두 사용할수 있다. 다중처 리 기 
체계에서만 발생할수 있는 경쟁상태를 막으려고 기억기장벽을 사용할 때에는 smp _ xxx () 
기초함수를 사용한다. 이 함수는 단일처려기체계에서는 아무 일도 하지 않는다. 

다른 기억기장벽은 단일처리기와 다중처리기체계에서 경쟁상태를 막기 위하여 사용 


한다. 

표 8-5. 

Linux 어【서의 기억기장注} 

마크로 

설 명 

mb () 

다중처 리 기 ( MP ) 와 단일 처 리 기 ( UP ) 에 서 사용할수 있는 기 억 기 장벽 

rmb () 

MP 와 UP 에서 사용할수 있는 읽기용기억기장벽 

wmb () 

MP 와 UP 에서 사용할수 있는 쓰기 용기억 기 장벽 

smp mb () 

MP 에서만 사용할수 있는 기억기장벽 

smp rmb () 

MP 에 서 만 사용할수 있는 읽 기 용기억 기 장벽 

smp _ wmb () 

MP 에서만 사용할수 있는 쓰기용 기억기장벽 


기억기장벽의 실현은 체계구조마다 다르다. 례를 들어 Intel 환경에서 mbO 마크로는 
asm volatile ( “ lock ; addl $0,0(%% esp )” memory ” ) 

로 바권다. 

asm 명령어는 콤파일러에 뒤에 나오는 기호언어명령어를 삽입하라고 지시한다. 
volatile 은 를파일러가 asm 명령어를 프로그람에 있는 다른 명령어와 섞는것을 금지한다. 
memory 는 콤파일러가 이 기호언어명령어로 인하여 주기억기의 모든 주소에 있는 
값이 바뀌였다고 가정하게 한다. 따라서 를파일러는 코드를 최적화하기 위해 asm 명령어 
가 나오기 전에 CPU 등록기에 보관한 기억기주소의 값을 사용할수 없다. 마지막으로 
lock ； addl $0,0(%% esp ) 기호언어명령어는 탄창의 맨우에 있는 기억기주소에 0을 추 
가한다. 이 명령어자체는 쓸모가 없지만 앞에 붙은 lock 앞붙이는 이 명령어를 CPU 의 
기억기장벽으로 만든다. Intel 에서 wmb () 마크로는 이보다 간단하여 asm 
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volatile ( ‘‘” :: :” memory ” )로 바권다. Intel 처리기는 기 억기쓰기호출의 순서를 절대 
로 바꾸지 않기때문에 코드에 직렬화를 하는 기호언어명령어를 삽일할 필요가 없다. 그 
렇지만 이 마크로는 콤파일러가 명령어를 섞는것을 금지한다. 다중처리기체계에서 앞에 
서 《 원자적인 연산》에서 설명 한 모든 원자적인 연산은 앞에 lock 앞붙이 가 붙어있기때 
문에 기 억기장벽 역할을 한다. 

4) 스핀잠그기 

《 잠그기 ( locking ) 》는 광범 하게 사용하는 동기 화기 법 이 다. 핵 심부조종경 로에서 공 
유자료구조체를 호출해야 하거나 제한령역에 들어가야 할 때에는 반드시 이에 대한《잠 
그기 ( lock )》 를 획득해야 한다. 잠그기기구를 통해 보호하는 자원은 문을 잠근 방안에 
갇힌 자원과 매우 류사하다. 어떤 핵심부조종경로가 자원을 호출하려고 할 때에는 자물 
쇠 (잠그기)를 획득하여 《문을 열려고》한다. 이것은 자원을 사용할수 있을 때에만 성공 
한다. 

자원을 사용하고있는 동안에는 문은 계속 잠겨있다. 핵심부조종경로에서 잠그기를 
해제하면 문에 걸린 자물쇠가 열려 다른 핵심부조종경로가 그 안에 들어갈수 있다. 

그림 8-1 은 잠그기사용을 보여준다. 여기서는 핵심부조종경로 5개 
( P 0， P 1， P 2, P 3， P 4) 가 제 한령 역 2개 ( C 1， C 2) 에 호출하려 고 한다. 핵 심 부조종경 로 P 0 은 
C 1 령 역안에 있고, P 2 와 P 4 는 여기 에 들어 가려 고 기 다리고있다. 동시 에 P 1 은 C 2 령 역 안 
에 있고 P 3 이 들어가려고 기다리고있다. P 0 과 P 1 을 동시에 실행할수 있다. 제한령역 C 3 
에 들어가려는 핵심부조종경로가 없기때문에 이에 대한 잠그기는 열린 상태이다. 


& & 

C1 

Pn : 핵심부조종경로 

& 

O C2 

Cn : 림계 령 역 


그림 8-1. 잠그기를 여러개 리용해서 제한령역을 보호하기 


《스핀잠그기 (spin lock )》 는 다중처리환경에서 동작하도록 만든 특별한 종류의 잠 
그기이다. 핵심부조종경로는 스핀잠그기가《열려》있으면 잠그기를 획득하여 실행을 계 
속하고 반대로 다른 CPU 에서 실행중인 핵심부조종경로에 의해 스핀잠그기가《잠겨》 
있으면 잠그기가 해제될 때까지 명령순환을 실행한다. 
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스핀잠그기를 단일처 러기환경 에서 사용하면 잠그기를 기 다리는 핵 심부조종경로는 실 
행을 계속하고 따라서 잠그기를 점유하는 핵심부조종경로는 잠그기를 해제할 기회가 없 
기때 문에 단일처 리기환경 에서는 쓸모가 없다. 스핀잠그기 가 실행 하는 명 령순환은《바쁘 
게 기 다림 (busy wait ) > 이 다. 스핀잠그기 를 기 다리 는 핵 심 부조종경 로는 시 간을 랑비 하 
는것외에는 할 일이 없어도 CPU 에서 실행을 계속한다. 그럼에도 불구하고 많은 핵심부 
조종잠그기가 잠겨 있는 시간은 1 ms 의 몇분의 1밖에 되지 않아 CPU 를 해제하였다가 나 
중에 CPU 를 다시 획득하는것 이 오히려 시간을 더 소비하기때문에 일반적으로 스핀잠그 
기가 훨씬 편리하다. 

Linux 에서는 매 스핀 잠그기를 한개의 lock 마당으로 구성된 spinlock _ t 구조체로 나 
타낸다. 

lock 마당값은 열 린 상태에서는 1이고 잠긴 상태 에서는 0이거 나 부수이다. 

표 8-6 은 스핀잠그기를 초기화하고 검사하고 설정할 때 사용하는 함수를 보여준다. 
단일 처 러 기 체 계 에 서 는 항상 1 을 되 돌리 는 spin _ trylock () 를 제 외 한 나머 지 함수는 아무 
일도 하지 않는다. 아래 에 있는 모든 함수는 원자적인 연산을 기반으로 한다. 이것은 
CPU 에서 실행중인 프로쎄스가 스핀잠그기를 갱신할 때 다른 CPU 에서 실행중인 다른 
프로쎄스가 동시에 그 스핀잠그기를 수정하려고 해도 스핀잠그기가 정확히 갱신되도록 
보장한다. (\ kernel \ spinlock . c ) 


표 8-6. 

스핀잠그기함수 

마크로 

설 명 

Spin lock init () 

스핀잠그기를 1로 설정 한다. (열기) 

Spin _ lock () 

스핀잠그기가 1로 될 때까지 (열기)기다렸다가 0으로 (잠그기) 
설정 한다. 

Spin 一 unlock () 

스핀잠그기를 1로 설정 한다. (열기) 

spin un lock wait 0 

스핀잠그기 가 1로 될 때 까지 (열 기 ) 기 다린 다. 

Spin is locked () 

스핀잠그기가 1이면 (열기)0, 아니면 1을 되돌린다. 

Spin _ trylock () 

스핀잠그기를 0으로 설정한 후(잠그기) 잠그기를 획득한 경우 

1, 실패한 경 우 0을 되돌린 다. 


스핀잠그기를 획득할 때 사용하는 spin _ lock 마크로를 구체적으로 보면 다음과 같다. 
이 마크로는 스핀잠그기의 주소 sip 를 파라메터 로 받아 다음과 같은 기 호언어 코드 
를 만들어낸다. 
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jns 3 f 

2 ： cmpb $0 ,sip 
pause 
jle 2 b 
jmplb 

3： 

decb 기호언어명령어는 스핀잠그기의 값을 감소시킨다. 명령어앞에 lock 앞붙이가 붙 
어 있으므로 이 명 령 어는 원자적 이다. 

다음으로 부호기발 (sign flag ) 에 대해 검사를 수행하는데 그 값이 0이면 스핀잠그 
기가 1( 열림)이라는것을 의미하므로 표식3에서 (표식뒤에 불은 뒤붙이《:》은 표식이 
현재명령어《뒤》에 있음을 의미한다. 이것은 나중에 나올 프로그람에서도 동작한다.)정 
상적인 실행과정을 계속해나간다. 그렇지 않으면 스핀잠그기가 정수값을 가진다고 판단 
할 때까지 표식 2에 있는(뒤불이 b 는 표식이 《앞》에 있음을 의미한다.) 순환을 실행 
한다. 그리고 나서 표식1부터 다시 시작하는데 그것은 다른 처리기가 잠그기를 획득했 
는가를 검사하지 않고 진행하는것은 위험하기때문이다. 펜티움4모형에서 등장한 pause 
기 호언어명 령 어는 스핀잠그기순환의 실행을 최 적 화하려 고 만들었 다. 약간 지 연을 주어 
잠그기이후에 나오는 코드의 실행을 빠르게 하고 전력소비를 줄인다. 

pause 명 령 어 는 이 전 Intel 처리 기 모형 에 서 아무일도 하지 않는 rep ; nop 명 령 어 에 해 
당하기때문에 이전모형과 호환된다. spin _ unlock 마크로는 앞에서 획득한 스핀잠그기를 
해제한다. 이것은 다음과 같은 코드를 만든다. 

lock ； movb $1, sip 

다시 한번 lock 앞붙이는 뒤에 나오는 값을 보관하는 명령어를 원자적으로 만든다. 

5) 읽기/쓰기스핀잠그기 

핵심부에서 동시에 할수 있는 작업량을 늘이기 위해 《 읽기/쓰기스핀잠그기 
( read/write spin lock ) 》를 도입하였다. 이것은 자료구조체를 수정 하는 핵심부조종경 
로가 없는 한 여러개의 핵심부조종경로에서 해당 자료구조체를 동시에 읽을수 있도록 
허용한다. 

핵심부조종경로에서 그 자료구조체에 쓰고싶을 때에는 읽기/쓰기잠그기중에서 쓰기 
용잠그기를 획득해야 하며 이것은 자원에 대한 배타적인 호출권한을 준다. 자료구조체를 
동시에 읽을수 있게 하면 체계성능이 향상된다. 

그림 8-2 는 읽 기 /쓰기잠그기 로 보호하는 두 제 한령 역 ( C 1, C 2) 을 보여 준다. 핵 심부 
조종경로 R 0 과 R 1 이 동시에 C 1 에서 자료구조체를 읽고있으며 W 0 은 자료구조체의 쓰 
기용잠그기를 획득하려고 기 다린다. 핵심부조종경로 W 1 은 C 2 에서 자료구조체를 쓰고있 
으며 R 2 와 W 2 는 매개의 자료구조체의 값을 읽거나 쓰기 위한 잠그기를 획득하려고 기 
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다린다. 


( 프 ) 

C1 

Rn : 읽기핵심부조종경로 

Wn : 쓰기핵심부조종경로 



Cn : 제한령역 

( 프 ) ( 프 ) 

도 ^】: C2 



그림 8-2. 읽기/쓰기스핀잠그기 

매 읽기/쓰기스핀잠그기는 rwlock_t 구조체로 구성된다. 이 구조체의 lock 마당은 
다음과 같은 서 로 다른 두가지 정 보를 가지 고있는 32bit 값이 다. (include\asm-(cpu 종 
류) \spinlock. h) 

■ 현재 보호중인 자료구조체를 읽는 핵심부조종경로의 수를 나타내는 24bit 계수기. 
이 마당의 0-23bit 에 이 계수기의 2 의 보수값이 들어간다. 

■ 읽거나 쓰는 핵심부조종경로가 없을 때에는 1，있을 때에는 0으로 되는 잠그기해 
제 ( unlock ) 기 발. 이 기 발은 이 마당의 비 트24에 들어 간다. 

스핀잠그기를 리용하지 않을 때에는 lock 마당의 값은 0x01000000 이고(잠그기해제 
기발은 1이고 아무도 읽지 않는다.) 누군가 쓰기용으로 획득한 경우에는 
0x00000000( 잠그기해제기발은 0 이고 읽지 않는다.)이다. 하나 또는 둘이상의 핵심부조 
종경로가 읽기용으로 획득한 경우에는 OxOOf 打 fff, OxOOfffffe 이런 식의 값을 가진 
다. (잠그기 해제 기 발은 0 이 고 읽는 개수에 2 의 보수를 취 한값이 아래 자리 24bit 에 들어 
간다.) 

rwlock_init 마크로는 읽기/쓰기 스핀 잠그기의 lock 마당을 0x01000000( 열림) 으로 
초기 화한다. (우와 갈은 파일) 

① 읽기용으로 잠그기를 획득하고 해제하기 

읽기/쓰기스핀잠그기의 주소 rwlp 에 대해 read_lock 마크로를 실행하면 다음과 같 
은 코드로 바권다. 

movl $rwlp, %eax 

lock ； subl $1, (% eax ) 
jns If 

call — read_lock_f ailed 
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_ read _ lock _ failed () 는 다음기 호언어 함수이 다. 

— read _ lock _ failed : 

lock ； incl (% eax ) 

1 : cmpl $1， (% eax ) 
js lb 

lock ； decl (% eax ) 
js — read _ lock_failed 
ret 

read _ lock 마크로는 앞서 설명한 spin _ lock () 마크로와 비슷한데 두번째 단계에서 
다음의 함수를 실행한다. 

int _ raw _ read_trylock ( rwlock_t * lock ) 

{ 

atomic_t *count = ( atomic_t *) lock -〉 lock ; 
atomic_dec ( count ) ； 
if ( atomic _ read ( count ) >= 0) 
return 1； 

atomic_inc ( count ); 
return 0； 

} 

read _ lock 마크로는 원자적으로 스핀잠그기의 값을 1감소시켜 읽는 핵심부조종경로 
의 수를 증가시킨다. 감소시킨 연산의 결과가 부수가 아니 라면 스핀잠그기를 획득한다. 
부수라면 _ read _ lock _ failed () 함수를 호출한다. 이 함수는 원자적으로 lock 마당의 값 
을 증가시켜 read.lock 마크로가 수행한 연산을 취소하고 그 마당이 정수 (1 보다 크거나 
같은 값)가 될 때까지 순환한다. 다음으로 _ read _ lock _ failed () 는 스핀잠그기를 다시 
획득하려고 시도한다. (다른 핵심부조종경로가 cmpl 명령어 직후에 스핀잠그기를 쓰기용 
으로 획득했을수도 있다.) 

읽기용잠그기를 해제하는것은 아주 간단한다. read _ unlock 마크로는 단순히 lock 마 
당의 계수기값을 증가시켜 읽는 경로의 수를 감소시킨다. 따라서 이 마크로는 다음기호 
언어명령어로 바권다. 


lock ； incl rwlp 

② 쓰기용으로 잠그기를 획득하고 해제하기 

write _ lock 마크로는 우에서 설명한 spin _ lock (), read _ lock () 와 같은 방법으로 
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구현한다. 구체적으로 핵심부선취가 지원되면 그것을 불가능하게 하고 
_ raw _ write _ trylock () 를 호출하여 잠그기를 시도한다. _ raw _ write _ trylock () 는 다 
음과 갈다. 

int _ raw _ write_trylock ( rwlock_t * lock ) 

{ 

atomic_t *count = ( atomic_t *) lock -〉 lock ; 
if ( atomic _ sub _ and_test (0 x01000000 , count )) 
return 1； 

atomic_add (0 x01000000 , count ) ； 
return 0； 

} 

읽기/쓰기스핀잠그기의 주소 rwlp 에 대해 write _ lock 함수를 호출하면 다음과 같 
은 코드로 바권다. 

movl $ rwlp , %eax 

lock ； subl $0 x01000000 , (% eax ) 
jz If 

call _ write _ lock_failed 


_ write _ lock _ failed () 는 다음기 호언 어 함수이 다. 

— write _ lock_f ailed : 

lock ； addl $0 x01000000 , (% eax ) 

1 : cmpl $0 x01000000 , (% eax ) 
jne lb 

lock ； subl $0 x01000000 , (% eax ) 

jnz — w rite_l ock_f ai 1 ed 

ret 

write _ lock 마크로는 원자적으로 스핀잠그기의 값에서 0 x01000000 을 덜어서 잠그 
기해제기발을 0으로 지운다. 이렇게 던 연산의 결과가 0이라면 (아무도 읽지 않음)스핀 
잠그기를 획득하고 그렇지 않으면 _ write _ lock _ failed () 를 호출한다. 

이 함수는 원자적으로 lock 마당에 0 x01000000 을 더해서 write _ lock 마크로가 수행 
한 연산을 취소하고 스핀잠그기가 여유가 있을 때까지 ( lock 마당이 0 x01000000 ) 순환 
한다. 다음으로 _ write _ lock _ failed () 는 스핀잠그기를 다시 획득하려고 시도한다. (다 
른 핵심부조종경 로가 cmpl 명 령 어직후에 스핀잠그기 를 획득했을수도 있다.) 

쓰기용잠그기를 해제하는것은 아주 간단하다. write _ unlock 마크로는 단순히 lock 
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마당의 잠그기 해제기 발을 설정 한다. 따라서 이 마크로는 다음기 호언어명 령 어로 바권다. 
lock ； addl $0 x01000000 , rwlp 

6 ) 대형읽기용잠그기 

읽기/쓰기스핀잠그기는 읽는 대상이 많으면서 쓰는 대상이 적은 자료구조체에 유용하다. 

이것은 보호하는 자료구조체를 여러 대상이 동시에 읽을수 있게 하기때문에 일반스 
핀잠그기보다 편리하다. 그렇지만 언제든지 CPU 가 읽기/쓰기스핀잠그기를 획득할 때마 
다 rwlock _ t 에 있는 계수기를 갱신해 야 한다. 

이후에 다른 CPU 에서 rwlock _ t 자료구조체를 호출하면 두 처리기의 하드웨어캐쉬 
를 동기화해 야 하기때문에 상당한 성능손실이 발생한다. 또한 나중에 CPU 도 rwlock_t 
자료구조체를 바꾸기때문에 이전 CPU 에 있는 캐쉬가 무효화되고 이전 CPU 가 잠그기를 
해제할 때도 또 다른 성능손실이 발생한다. 간단히 말하면 읽는 CPU 는 읽기/쓰기스핀 
잠그기자료구조체를 담고있는 캐쉬행과 주고받으며 탁구를 치는것과 같다. 

이 런 문제 를 해 결 하기 위 하여 《 대 형읽 기 용읽 기 /쓰기 스핀 잠그기 (big reader 
read/write spin lock ) > 이 라는 특별 한 종류의 읽 기 /쓰기 스핀잠그기 를 도입 하였 다. 

그 기본사상은 잠그기의 《읽는》부분을 모든 CPU 로 분할하자는것이다. 따라서 
매 CPU 별로 자료구조체는 자기만의 하드웨어캐쉬행에 들어간다. 읽는 CPU 는 다른 
CPU 에 있는 읽기용잠그기를 《상관하지》않으므로 서로 충돌할 필요가 없다. 반대로 
한개의 CPU 만이 쓰기용으로 잠그기를 획득할수 있기때문에 잠그기가《쓰는》부분은 
모든 CPU 에서 공유한다. 

_ brlock _ array 배렬은 대형읽기용읽기/쓰기스핀잠그기의 《읽는》부분을 보관한 
다. 이 배럴은 이 종류의 모든 잠그기마다 그러고 체계에 있는 모든 CPU 마다 하나씩 
잠그기기발을 가전다. 해당 CPU 가 읽기용도로 잠그기를 잠그면 이 기발의 값은 1이 된 
다. 반면 에 _ br _ write _ lock 배 렬은 대 형 읽 기 용스핀 잠그기 의 《 쓰는》부분，즉 대 형 읽 기 
용스핀잠그기 를 쓰기용으로 획 득하면 설 정 하는 일 반스핀잠그기 를 보관한다. 

br _ read _ lock () 함수는 읽기용으로 스핀잠그기를 획득한다. 이 함수는 해당 CPU 의 
_ brlock _ array 에 있는 잠그기기 발과 대형읽기용스핀잠그기를 1로 설정 한다. 그리고 
_ br _ write_locks 에 있는 스핀잠그기가 열릴 때까지 기다린다. 반대로 
br _ read _ unlock () 함수는 간단히 _ brlock _ array 의 잠그기기발을 0으로 지운다. 

br _ write _ lock () 함수는 쓰기용으로 스핀잠그기를 획득한다. 이 함수는 spin_lock 
를 호출하여 대형읽기용스핀잠그기 에 해 당하는 _ br _ write _ locks 에 있는 스핀잠그기를 
획득한 후 대형읽기용잠그기 에 해당하는 _ brlock _ array 에 있는 모든 잠그기기 발이 0 
인가를 검사한다. 

0 이 아닌 잠그기기발이 하나라도 있으면 _ br _ write _ locks 에 있는 스핀잠그기를 
해제하고 다시 시작한다. 

br _ write _ unlock () 함수는 간단히 spin _ unlock 를 호출하여 _ br _ write _ locks 에 
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있는 스핀잠그기 를 해제한다. 열 려있는 대형읽기용스핀잠그기를 읽 기용으로 획 득하는것 
은 매우 빠르다. 그러나 이것을 쓰기용으로 획득하려면 CPU 는 스핀잠그기를 획득하고 
여 러개의 잠그기기발을 검사해 야 하므로 매우 느리 다. 따라서 대형읽기용스핀잠그기는 
거의 사용하지 않는다. Intel 기 본방식 에서는 망코드에서 대형읽 기용스핀잠그기를 단 하 
나만 사용한다. 

7) 신호기 

앞에서 《동기화와 제한령역》에서 신호기 ( semaphore ) 를 설명하였다. 기본적으로 
신호기는 자원을 기다리는측이 원하는 자원을 사용할수 있게 될 때까지 잠들게 하는 잠 
그기기법을 실현한다. 실제로 Linux 는 두가지 종류의 신호기를 제공한다. 

• 핵심부조종경로에서 사용하는 핵심부신호기 

■ 사용자방식프로쎄 스가 사용하는 System V IPC 신호기 

IPC 신호기는 다음절에서 설명하므로 이 절에서는 핵심부신호기에 대해서만 설명한다. 

핵 심 부신호기 (kernel semaphore ) 는 잠그기 가 열 리 지 않는 한 핵 심 부조종경 로가 
더는 진행할수 없다는 점에서 스핀잠그기와 비슷하다. 그렇지만 핵심부조종경로가 핵심 
부신호기로 보호하는 이미 사용중인 자원을 획득하려고 하면 해당 프로쎄스를 보류한다. 
해당 자원을 해제하면 그 프로쎄스는 다시 실행할수 있게 된다. 따라서 핵심부신호기는 
프로쎄스가 잠들어도 되는 함수에서만 획득할수 있으며 새 치기조종기 나 지 연함수에서는 
사용할수 없다. 

핵심부신호기는 다음과 같은 마당을 포함하는 struct semaphore 형객체이다. 

• count 

atomic _ t 값을 보관한다. 이 값이 0보다 크면 자원은 자유롭다. 즉 자원은 현재 사 
용가능하다. 반대로 count 가 0이면 신호기는 사용중이지만 보호하는 자원을 기다리는 
다른 프로쎄스는 없다. 마지막으로 count 가 부수이면 자원을 사용할수 없으며 적어도 
하나이상의 프로쎄스가 그 자원을 기다리고있다. 

• wait 

현재 자원을 기 다리 며 잠들어있는 모든 프로쎄 스를 포함하는 대 기 렬목록의 주소를 보 
관한다. count 가 0보다 크거나 갈으면 대기렬은 비여있다. 

• sleepers 

프로쎄 스가 신호기 를 기 다리 며 잠들어있는가를 나타내 는 기 발을 보관한다. 배 타적 인 
호출을 위한 신호기를 초기화할 때에는 init _ MUTEX 와 init _ MUTEX _ LOCKED 마크로 
를 사용할수 있다. 이것들은 count 마당을 각각 1( 배타적 인 호출을 하는 사용할수 있는 
자원)과 0( 현재신호기를 초기화하는 프로쎄스에 할당된 배타적인 호출을 하는 사용중인 
자원)으로 설정한다. 참고로 신호기의 count 값은 임의의 정수값 0으로 초기화할수 있다. 
이 경우 최대 n 개의 프로쎄스가 동시에 자원을 사용할수 있다. 

① 신호기를 획득하고 해제하기 
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먼저 신호기를 해제하는 방법을 보자. 신호기를 획득하는것보다 해제하는것이 훨씬 
간단하다. 프로쎄 스는 up () 기 호언어 함수를 호출하여 핵 심부신호기 잠그기 를 해 제 한다. 

이 함수는 다음과 갈다. 
movl $ sem , %ecx 

lock ； incl (% ecx ) 
jg If 

pushl %eax 
pushl %edx 
pushl %ecx 
call — up_wakeup 
popl %ecx 
popl %edx 
popl %eax 


_ up () 은 다음과 같은 C 함수이다. 


— attribute — (( regparm (3))) void _ up (struct semaphore * sem ) 

i 

wake_up (& sem -> wait ) : 

} 

up () 함수는 신호기 * sem 의 count 마당 ( semaphore 구조체의 편위 0 에 있다.)을 증 
가시킨 후 그 값이 0보다 큰가를 검사한다. count 값을 증가시키고 다음행에 나오는 이 
행 ( jump ) 명령어에서 검사할수 있도록 기발을 설정하는 작업은 반드시 원자적으로 실행 
해야 한다. 그렇지 않으면 다른 핵심부조종경로가 동시에 그 마당의 값에 호출하여 뜻박 
의 결과를 낳을수 있다. count 가 0보다 크다면 대기렬에서 기다리는 프로쎄스가 없다는 
것이므로 더는 할 일이 없다. 0보다 같거나 작으면 _ up () 함수를 호출하여 잠든 한개의 
프로쎄스를 깨운다. 

프로쎄스는 핵심부신호기잠그기를 획득할 때 downO 함수를 호출한다. 이 함수는 
복잡하지만 기본적으로 다음의 코드와 동등하다. 

down ： 

movl $ sem , %ecx 
lock ； decl (% ecx ) : 
jns If 
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pushl %eax 
pushl %edx 
pushl %ecx 
call — down 
popl %ecx 
popl %edx 
popl %eax 


_ down () 은 다음과 같은 C 함수이다. 

— attribute — (( regparm (3))) void _ down (struct semaphore * sem ) 

{ 

DECLARE_WAITQUEUE ( wait , current ) ； 
unsigned long flags ； 

current -〉 state = TASK_UNINTERRUPTIBLE ； 
spin _ lock_irqsave (& sem -> wait . lock , flags ) ； 
add _ wait _ queue _ exclusive _ locked (& sem -> wait , 技 wait ) ； 
sem -> sleepers ++ ； 
for (;;) { 

if (! atomic _ add _ negative ( sem -> sleepers -1， & sem -> count )) { 
sem->sleepers = 0； 
break ； 

} 

sem->sleepers = 1； 

spin _ unlock _ irqrestore (& sem -> wait . lock , flags ) ； 
schedule ( ) ； 

spin _ lock_irqsave (& sem -> wait . lock , flags ) ； 
current->state = TASK_UNINTERRUPTIBLE ； 

} 

remove _ wait _ queue _ locked (& sem -> wait , 技 wait ) ； 
wake _ up_locked (技 sem -〉 wait ) ； 
spin _ unlock 一 irqrestore (& sem -> wait , lock , flags ) ； 
current->state = TASK _ RUNNING ； 
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down 0 함수는 먼저 신호기 * sem 의 count 마당 ( semaphore 구조체의 편위 0에 있 
다.)을 감소시킨 후 그 결과가 부수인가를 검사한다. 마찬가지로 값을 감소시키고 검사 
하는 작업은 원자적으로 실행해야 한다. count 가 0보다 크거나 같으면 현재프로쌔스는 
자원을 획득하여 정상적으로 실행을 계속한다. count 가 부수이면 현재프로쎄스의 실행 
을 보류해야 한다. 

이때에는 일부등록기의 내용을 탄창에 보관한 후 _ down () 을 호출한다. 
기본적으로 _ down () 함수는 현재 프로쎄스의 상태를 TASK_RUNNING 에서 
TASK_UNINTERRUPTTBLE 로 바꾸고 프로쎄스를 신호기의 대기 렬에 넣 는다. 
semaphore 구조체의 다른 마당에 호출하기 전에 semaphore _ lock 스핀 잠그기와 국부새 
치기를 금지한다. 이것은 현재프로쎄스가 신호기에 있는 마당을 갱신하는 동안에 다른 
CPU 에서 실행중인 프로쎄스가 읽거 나 수정 할수 없게 한다. _ down () 함수의 기본역할 
은 신호기를 해제할 때까지 현재프로쎄스를 보류하는것이다. 그렇지만 이 일을 처리하 
는 방법은 복잡하다. 코드를 쉽게 리해하기 위해 신호기의 sleepers 마당은 보통신호기 
의 대기렬에서 잠든 상태에 있는 프로쎄스가 없으면 0, 있으면 1이라고 생각하자. 몇가 
지 전형적인 실례를 보면서 이 코드를 설명해보자. 

O 뮤텍스 ( Mutex ) 열린신호기 ( count 는 1 이고 sleepers 는 0이다.) 
down 마크로는 단순히 count 마당을 0으로 설정하고 프로그람의 다음명령어로 이행 
한다. 따라서 _ down () 함수를 전혀 실행하지 않는다. 

O 뮤텍스닫긴신호기，기다리는 프로쎄스 없음 ( count 는 0이고 sleepers 는 0이다.) 
down 마크로는 count 를 감소시키고 count 마당이 -1 이고 sleepers 마당이 0인 상 
태에서 _ down 0 함수를 호출한다. 

이 함수는 순환을 반복할 때 마다 count 마당이 부수인가를 검사한다. (이 함수를 호 
출할 때 sleepers 는 0이므로 atomic _ add _ negative 0 에 의 해 마당이 변경되지 않는 
다.) 

■ count 마당이 부수이면 scheduled ) 함수를 호출하여 현재프로쎄스를 보류한다. 
count 마당은 여전히 -1 이고 sleepers 마당은 1이 된다. 

프로쎄스는 련이어 순환안에서 실행을 시작하고 검사를 다시 한다. 

■ count 마당이 부수가 아니면 sleepers 를 0으로 설정 하고 순환에서 빠져 나간다. 
신호기대기렬에 있는 다른 프로쎄스를 깨우고 (그러나 현재 대기렬은 비여있다.) 신 

호기를 가진채로 완료한다. 완료할 때 신호기가 닫겨있고 기다리는 프로쎄스가 없다는것 
을 나타내도록 count 마당과 sleepers 마당을 모두 0으로 설정한다. 

O 뮤텍스닫긴신호기，기다리는 프로쎄스 있음 ( count 는 -1 이고 sleepers 는 1이 

다.) 

down 마크로는 count 를 감소시키고 count 마당이 -2 이고 sleepers 마당이 1인 상 
태에서 — downO 함수를 호출한다. 이 함수는 림시적으로 sleepers 를 2로 설정하고 나 
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서 count 에 sleepers-1 을 더해서 down 마크로가 수행한 감소명령을 취소한다. 이와 
동시 에 count 가 여 전히 부수인가를 검 사한다 . ( _ down () 이 제 한령 역 에 들어 가기 직 전 
에 신호기를 가지고있던 프로쎄스가 이것을 해제했을수 있다.) 

■ count 마당이 부수이면 sleepers 를 1로 설정하고 scheduleO 를 호출하여 현재프 
로쎄스를 보류한다. count 마당은 여전히 -1 이고 sleepers 마당은 1이 다. 

■ count 마당이 부수가 아니면 sleepers 를 0으로 설정하고 신호기대기렬에 있는 다 
른 프로쎄스를 깨운 후 신호기를 가진채 완료한다. 완료할 때 count 마당과 sleepers 
마당은 모두 0이 다. 

다른 잠든 상태 에 있는 프로쎄 스가《 있기》때 문에 이 값을 둘다 틀렸다고 생 각할수 
도 있다. 

그렇지만 대기렬에 있는 다른 프로쎄스가 이미 깨여났다는것을 기억하자. 이 프로쎄 
스는 순환을 다시 반복한다. atomic _ add _ nega 社 ve () 함수는 count 에서 1을 덜고 이것 
을 다시 -1 로 만든다. 나가서 잠든 상태로 돌아가기 전에 이 깨여난 프로쎄스는 
sleepers 를 1로 재설정한다. 

우에서 본것처럼 이 코드는 모든 경우에 정확히 동작한다. 대기렬에 있는 잠든 프로 
쎄 스는 배 타적 이 기 때 문에 ( 《 프로쎄 스조직 화하기》참고) _ down () 함수에 서 호출하는 
wake _ up () 함수는 한개의 프로쎄스만 깨운다. 례외조종기만이 체계호출봉사루린에서 
down 0 함수를 사용할수 있다. 

downO 함수는 신호기가 이미 사용중이면 프로쎄스를 보류할수 있으므로 새치기조 
종기나 지연함수는 이것을 호출해서는 안된다. 이런 러유로 Linux 는 앞에서 설명한것 
처럼 비동기적인 함수에서 안전하게 사용할수 있는 down _ trylock () 이라는 함수를 제 
공한다. 

이 함수는 자원이 사용중일 때 프로쎄스를 재우지 않고 곧바로 완료한다는 점을 제 
외하면 downO 함수와 똑같다. 

이와 조금 다른 함수로 down _ interruptible () 이 있다. 이 함수는 신호기에 의해 
차단상태가 되더라도 프로쎄스가 신호를 받아 《 down 》 동작을 멈출수 있게 하므로 장 
치구동프로그람에서 많이 사용한다. 잠든 상태에 있는 프로쎄스가 필요한 자원을 획득하 
기 전에 신호를 받아서 깨여나면 이 함수는 신호기의 count 마당값을 증가시킨 후 - 
EINTR 값을 되돌린다. 

반대로 down _ interruptible () 함수가 정상적으로 실행을 완료하여 자원을 획득하 
면 0을 되돌린다. 따라서 장치구동프로그람은 결과값이 - EINTR 인 경우 입출력동작을 
멈춘다. 

마지막으로 프로쎄스가 신호기를 획득하려 할 때 대체로 신호기는 열린 상태에 있기 
때문에 신호기함수는 이 경우에 맞추어 최적화되여있다. 특히 up () 함수는 신호기대기렬 
이 비여있다면 제한령역에 들어가지 않는다. 비숫하게 downO 함수는 신호기가 열린 상 
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태이면 제한령역에 들어가지 않는다. 신호기을 실현하는 복잡한 부분은 실행흐름의 핵심 
부분에서 시간이 소비되는 명 령 어를 피하도록 노력한 결과이 다. 

8 ) 읽기/쓰기신호기 

읽기/쓰기신호기는 Linux 의 새로운 기능이다. 이것은 신호기를 다시 사용할수 있 
게 될 때까지 기다리는 프로쎄스를 보류한다는 점을 제외하면 앞서 《읽기/쓰기스핀잠 
그기》에 서 설명 한 읽 기 /쓰기 스핀 잠그기 와 비 슷하다. 

많은 핵심부조종경로는 동시에 읽기/쓰기잠그기를 읽기용으로 획득할수 있지만 쓰 
려는 핵심부조종경로는 보호하는 자원에 대한 배 타적 인 호출을 해 야 한다. 따라서 읽기 
나 쓰기호출을 위해 신호기를 가지는 다른 핵심부조종경로가 없을 때에만 쓰기용으로 신 
호기를 획득할수 있다. 

읽기/쓰기신호기는 핵심부내부에서 동기정도를 향상하고 전체적인 체계성능도 향상 
한다. 핵심부는 읽기/쓰기신호기를 기다리는 모든 프로쎄스를 엄격하게 FIFO 순서에 따 
라 처 리한다. 

신호기 가 잠겨 있 어 기다려야 하는 읽 기 또는 쓰기 하려 는 프로 쎄 스를 신호기 의 대 기 
렬목록의 맨끝에 추가한다. 신호기를 해제하면 대기렬의 맨 처음위 치 에 있는 프로 쎄스를 
검사하여 항상 맨 처음에 있는 프로 쎄스를 깨운다. 그것이 쓰려는 프로 쎄스이면 대기렬 
에 있는 다른 프로 쎄스는 계속 잠들어 있어야 한다. 읽으러는 프로 쎄스이면 처음 프로 쎄 
스뒤 에 나오는 다른 읽 으려는 프로 쎄 스도 깨 여 나서 잠그기를 획득한다. 그렇지만 대기 렬 
에서 쓰려는 프로 쎄스뒤에 있는 읽으러는 프로 쎄스는 계속 잠든 상태로 있는다. 

매 읽기/쓰기 신호기는 아래와 같은 마당을 포함하는 rw _ semaphore 구조체 로 나타낸다. 

• count 

두개의 16 bit 계수기를 보관한다. 웃자리 16 bit 계수기에는 대기중이 아닌 쓰러는 프 
로쎄스의 개수와 (0 이나 1) 대기중인 핵심부조종경로개수의 합에 2의 보수를 취한 값이 
들어간다. 아래자리 16 bit 계수기에는 대기중이 아닌 읽거나 쓰려는 프로쎄스의 전체 개 
수가 들어 간다. 

• wait_list 

기다리는 프로쎄스목록에 대한 지적자이다. 이 목록에 있는 매 요소는 
rwsem _ waiter 구조체 로서 잠들어 있는 프로쎄 스의 서 술자를 가리 키 는 지 적 자와 프로쎄 
스가 읽기용신호기를 원하는가 쓰기용을 원하는가를 나타내는 기발을 포함한다. 

• wait_lock 

대 기 렬 목록과 rw _ semaphore 구조체 자신을 보호하기 위 한 스핀잠그기 이 다. 
init _ rwsem 0 함수는 rw _ semaphore 구조체의 count 마당을 0으로 설정하고 wait_lock 
스핀잠그기를 열린 상태로 wait _ list 를 빈 목록으로 초기화한다. down _ read () 와 
down _ write () 함수는 각각 읽기용과 쓰기용으로 읽기/쓰기신호기를 획득한다. 

up_read 0 (실 지 는 _ up_read 0 함수를 호출) 와 up_write () ( 실지는 
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_ up _ write () 함수를 호출)함수도 이전에 읽기와 쓰기용으로 획득한 신호기를 해제한다. 

9) 완료 

Linux 는 신호기 와 비슷한《 완료 ( completion ) 》라는 동기 화기 법 도 사용하는데 다 
중처리기체계에서 다음과 같은 경우에 발생하는 미묘한 경쟁상태를 해결할 목적으로 도 
입하였다. 

프로쎄스 A 는 림시신호기변수를 할당해서 닫긴 뮤텍스 ( MUTEX ) 로 초기화하고 이 
것의 주소를 프로쎄스 B 에 전달한 후 신호기에 downO 함수를 호출한다. 나중에 다른 
CPU 에서 실행하는 프로쎄스 B 는 같은 신호기에 대해 up () 를 실행한다. 그런데 현재 
실현된 up () 와 downO 함수를 같은 신호기에 대해서 동시에 실행하게 된다. 

따라서 프로쎄스 A 가 깨여나서 림시신호기를 제거할 때 프로쎄스 요는 아직 up () 
함수를 실행하고있을수도 있다. 그 결과 up () 는 존재하지 않는 자료구조체를 호출할수 
도 있다. 물론 downO 과 up 0함수의 실현을 바꿔서 같은 신호기에 대해서 두 함수를 
동시에 실행하지 못하게 만들수도 있다. 그렇지만 이렇게 변경하려면 명령어를 추가해야 
하고 이 함수를 많이 사용하기때문에 체계성능이 떨어질수 있다. 

완료는 이 문제를 해결하기 위하여 특별히 도입한 동기화기법이다. comple 仕 on 은 
대기렬머 리부와 기발 하나를 포함하는 자료구조체 이다. ( completion .!! 참고) 

struct completion { 
unsigned int done ； 
wait _ queue _ head_t wait ； 

}； 

upO 에 대응되는 함수는 completeO 이다. 이 함수는 completion 자료구조체에 대 
한 주소를 파라메터로 받아서 이것의 done 마당을 1 증가하고 _ wake _ up _ common () 
을 호출하여 대기렬 wait 에서 잠들어 있는 배타적인 프로쎄스를 깨운다. 

downO 에 대응되는 함수는 wait _ for _ completion () 이다. 이 함수는 completion 
자료구조체 에 대한 주소를 파라메터 로 받아서 done 기발의 값을 검사한다. 이것 이 1이 
상이라면 다른 CPU 에서 completeO 함수를 이미 실행했으므로 
wait _ for _ comple 仕 Mi () 함수는 완료한다. 0이라면 current 를 대기렬의 끝에 배타적인 
프로쎄스로 추가하고 current 를 TASK _ UNINTERRUPTTBLE 상태로 만들어 잠들게 
한다. completeO 함수에 의해 깨여나면 current 를 대기렬에서 제거하고 done 마당을 0 
으로 설정한 후 완료한다. 

완료와 신호기의 실질적인 차이는 대기렬에 들어있는 스핀잠그기를 사용하는 방법이다. 

completeO 와 wait _ for _ completion () 함수는 이것들을 동시에 실행 하지 않는다는 
것을 보장하기 위해 스핀잠그기를 사용하지만 up () 와 downO 는 대기렬목록에 직렬로 
호출하기 위하여 스핀잠그기를 사용한다. 

10 ) 국부새치기금지 
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새 치기금지는 일련의 핵 심부코드를 제한령 역으로 다루게 하는 핵 심기구중의 하나이 다. 

이것은 하드웨 어장치 가 IRQ 신호를 발생시키더 라도 핵심부조종경 로는 작업을 계속 
진행할수 있게 한다. 따라서 새 치기조종기 에서도 호출하는 자료구조체를 효과적으로 보 
호하는 방법 을 제 공한다. 그러 나 국부새 치 기 금지 (local interrupt disabling ) 만으로 다 
른 CPU 에서 실행하는 새치기조종기에서 동시에 자료구조체를 호출하는것까지는 막을수 
없다. 따라서 다중처 리기체계 에서는 일반적 으로 국부새 치기금지를 스핀잠그기 와 함께 사 
용한다. (《 핵 심 부자료구조체 토의 호출동기 화》참고) 

cli 기호언어명령어로 한 CPU 에서 새치기를 금지할수 있다. _ cli () 마크로는 이 명 
령어를 만든다. sti 기호언어명령어로 한 CPU 에서 새치기를 허용할수 있다. _ s 吐0마크 
로는 이 명령어를 만든다. 

최근핵심부에서는 local _ irq _ disable () 과 local _ irq _ enable () 이라는 마크로도 정의 
한다. 이것들은 각각 _ cli () 와 _ sti () 와 같지만 이름이 기본방식에 의존적이지 않고 훨 
씬 리 해 하기 쉽다. 

핵심부가 제한령역에 들어갈 때 eflags 등록기의 IF 기발을 0으로 지워서 새치기를 
금지 한다. 

그러나 제한령역에서 나갈 때 단순히 기발을 1로 다시 설정해서는 안된다. 새치기 
는 동시에 실행될수도 있기때문에 핵심부는 현재핵심부조종경로를 실행하기 전에 IF 기 
발의 값이 무엇이였는가를 알수 없다. 이런 경우에 핵심부조종경로는 이전기발설정을 보 
관하였다가 끝날 때 이 기 발값을 회복해 야 한다. _ save _ flags 와 _ restore _ flags 마크 
로를 사용하여 eflags 등록기의 내용을 보관하고 회복할수 있다. 

다음은 이 마크로를 사용하는 전형적 인 방법 이 다. 

_ save_flags ( old ) : 

_ cli ()； 

I-] 

_ restore_f lags ( old ) : 

_ save_flags 마크로는 eflags 등록기내용을 국부변수 old 로 복사하고 _ cli () 는 IF 
기발을 0으로 지운다. 제한령역끝에서는 _ restore_flags 마크로가 eflags 등록기를 이 
전 값으로 회복한다. 따라서 이 조종경로가 _ cli () 마크로를 호출하기 전에 새치기를 허 
용한 상태였을 때에만 새치기를 허용한다. 최근 핵심부에서는 local _ irq _ save () 와 
local _ irq _ restore () 라는 마크로도 정의한다. 이것들은 각각 _ save _ flags () 와 
_ restore _ flags 0 와 같지 만 이 름이 훨씬 리 해 하기 쉽 다. 

11 ) 대역새치기금지 

몇가지 중요한 핵 심부함수는 다른 CPU 에서 새 치기조종기 나 지 연함수를 실행하지 
않을 때 에 만 실행 할수 있다. 《 대 역새 치 기 금지 (global interrupt disabling ) 》는 이 런 
동기 화요구를 해 결 한다. 이 런 전형 적 인 경 우로 하드웨 어 장치 를 재 설정 ( reset ) 해 야 하는 
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구동프로그람이 있다. 

구동프로그람은 입출력포구에 어떤 일을 하기 전에 대역새치기를 금지해서 다른 구 
동프로그람이 같은 포구를 호출하지 못하게 해야 한다. 

이 절에서 보지만 대역새치기금지는 체계의 동시성수준을 크게 낮춘다. 이것을 다른 
효률적 인 동기 화기 법 으로 교체 할수 있으므로 이것을 사용하는것 은 불합리 하다. 


새 치 기 조종기 

아니 。안에 있는가ᅬ 에 


예 


global_irq_lock 를 
가지고있는가 

아니 


국부새 치 기 를 
허 용하는가 



국부새 치 기 를 
허용하는가 
.. 아니 




0 

save_flags() 

value 


o 

restore_flags() 


action 


0 

— global cli() 

1 

— global sti() 

2 

cH0 

3 

sti() 


그림 8-3. save _ flags () 오卜 rest 아 e_flags 가 하는 일 
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12 ) 지연함수금지 

《프로 그람적인 새치기》에서 지연함수를 실행할 시점은 예측할수 없다고 설명하였 
다. (기 본적 으로 하드웨 어 새 치 기 조종기 를 완료할 때 이 다. ) 따라서 지 연함수에 서 호출하는 
자료구조체를 경쟁상태로부터 보호해 야 한다. 

어떤 CPU 에서 지연함수의 실행을 금지하는 가장 쉬운 방법은 해당 CPU 의 새치 
기를 금지하는것 이 다. 

새 치 기조종기를 실행 하지 않으면 프로그람적 인 새 치기 ( sof 仕 rq ) 작업 역시 비동기적 
으로 시 작하지 않는다. 모든 CPU 에서 대 역새 치기를 금지한다면 모든 CPU 에서 지 연함 
수의 실행 을 금지할수 있다. 

cli () 마크로를 실행하면 이것 을 호출한 핵심부조종경 로는 모든 CPU 가 지 연함수를 
실행하지 않고있으며 대 역새 치기를 허 용하기 전까지 새 로 시 작하지 않는다고 생 각할수 
있 다. 

그러나 후에 보지만 핵심부는 어떤 경우에 새치기를 금지하지 않은채로 지연함수를 
금지할 필 요가 있 다. 

매 CPU 마다 지연함수를 금지 하려면 CPU 에 관련된 irq _ cpustat_t 구조체의 
_ local _ bh _ count 마당을 0이 아닌 값으로 설정하면 된다. do _ softirq 0 함수는 이 값이 
0 이 아닌 경우 프로그람적인 새치기를 절대로 실행하지 않는다. 

local _ bli _ disable 마크로는 — local _ bh _ count 값을 1 증가시키고 local _ bh_enable 
마크로는 이 값을 1감소시킨다. 따라서 핵심부는 local _ bh _ disable 를 여러번 호출할수 
있다. 처음 호출한 local _ bh _ disable 과 대응되는 local _ bh _ enable 마크로를 호출한 경 
우에만 지연함수를 다시 허용한다. 

3. 핵심부자료구조체로의 호출동기화 

앞에서 설명한 몇가지 동기화기법을 러용하여 공유하는 자료구조체를 경쟁상태로부 
터 보호할수 있다. 

어떤 종류의 동기화기법을 사용하는가에 따라 체계성능이 현저하게 달라질수 있다. 
일반적으로 핵심부개발자들은 항상 동시성수준을 체계에서 가능한 가장 높은 수준으로 
유지하는것을 제 일가는 규칙으로 삼는다. 

체계의 동시성수준 (concurrency level ) 은 다음 두가지 요인에 의하여 좌우된다. 

- 동시 에 동작하는 입 출력 장치 의 개 수 

- 과제 를 처리 하는 CPU 의 개 수 

입출력처리량을 늘이려면 새치기를 금지하는 시간이 매우 짧아야 한다. 《 IRQ 와 새 
치기》에서 설명한것처럼 새치기를 금지하고있을 때에는 입출력장치가 IRQ 를 발생시켜도 
PIC 는 이것을 일시적으로 무시하여 이 장치에 대해서 새로운 작업을 시작할수 없다. 

CPU 를 효률적으로 사용하려면 스핀잠그기를 리용한 동기화기법은 가능한 피해야 한다. 
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CPU 가 스핀잠그기가 열려기를 기다리며 명령어순환을 실행하는것은 해당 장치의 
귀중한 시간을 랑비하는것 이 다. 

동시성수준을 높게 유지하면서 동기화를 할수 있는 몇가지 경우를 보면 다음과 갈다. 

■정수값 하나로 구성된 공유자료구조체를 갱신할 때에는 이 자료구조체를 
atomic _ t 형 으로 선언하여 원자적 인 연산을 사용할수 있 다. 원자적인 연산은 스핀잠그기 
와 새치기금지보다 빠르며 동시에 해당 자료구조체를 호출하는 핵심부조종경로만 느리게 
만들뿐이다. 

• 공유하는 련결목록에 항목을 추가하는것을 지적자를 적어도 두개 설정해야 하기 
때문에 절대로 원자적이지 않다. 그럼에도 불구하고 핵심부는 때때로 잠그기를 사용하거 
나 새 치기를 금지하지 않고도 이 삽입 연산을 수행할수 있다. 이 렇게 동작하는 실례로 체 
계호출봉사루린이(《 체계호출조종기와 봉사루린》참고) 단순련결목록에 새 항목을 삽일 
할 때와 새치기조종기나 지연함수에서 이 목록을 비동기적으로 읽기만 하는 경우이다. 

C 언어에서는 다음지적자를 할당하는 행을 통해 삽입연산을 진행한다. 

new->next = list _ element -> next : 

list _ element->next = new ； 

이 삽입연산은 기호언어에서 련속된 원자적인 명령 어 두개로 바권다. 

첫번째 명령어는 new 항목의 next 지적자를 설정하지만 목록을 변경하지는 않는다. 
따라서 첫번째 명령어와 두번째 명령어사이에서 새치기조종기를 실행하여 목록을 참조 
한다면 새 항목이 들어가지 않은 목록을 보게 된다. 

두번째 명령어가 실행한 후에 새치기조종기를 실행하면 새 항목이 들어간 목록을 보 
게 된다. 중요한 점은 두 경우 모두 목록는 정상이며 손상되지 않은 상태라는것이다. 그 
러나 이것은 새치기조종기가 목록을 고치지 않는 경우에만 해당한다. 

목록을 수정하면 new 항목의 new 지적자에 설정한 값이 잘못될수도 있다. 개발자는 
를파일러나 CPU 의 조종장치가 두개의 대입연산의 순서를 바꾸어 놓지 않도록 해야 한 
다. 그렇지 않으면 체계호출루린의 두개의 대입연산사이에 새치기조종기를 실행하는 경 
우에 조종기는 손상된 목록을 참조하게 된다. 

따라서 쓰기 용기 억 기 장벽 이 펼 요하다. 

new->next = list _ element _> next ; 

wmb () ； 

list _ element->next = new ； 

1 ) 스핀잠그기와 신호기, 새치기금지가운데서 선택하기 

대부분의 핵심부조종구조체를 호출하는 형태는 우에서 본 간단한 실례보다도 훨씬 
더 복잡하여 핵심부개 발자들은 신호기와 스핀잠그기 , 새 치기금지,프로그람적새 치기금지 
를 사용해야 한다. 
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일반적으로 어떤 동기화기법을 사용하겠는가는 표 8-7 에 나타낸것처럼 어떤 종류의 
핵 심부조종경 로가 그 자료구조체 를 호출하는가에 달려있다. 


표 8-7. 핵심부조종경로에서 자료구조를 호_할 때 필요한 보호 


자료구조를체 를 호줄하는 

핵심부조종경로 

UP 에서 필요한 보호 

보모에서 추가로 필요한 보호 

례외 

신호기 

없음 

새 치 기 

국부새 치 기 금지 

스핀 잠그기 

지연함수 

없음 

없거나 스핀잠그기 
(표 8-8 참고) 

례 외 +새 치 기 

국부새 치 기 금지 

스핀 잠그기 

례외 +지연함수 

국부프로그람적인 

새 치 기 금지 

스핀 잠그기 

새치기+지연함수 

국부새 치 기 금지 

스핀 잠그기 

례 외 +새 치 기 +지 연 함수 

국부새 치 기 금지 

스핀 잠그기 


이 표에 대역새치기금지는 없다. 모든 CPU 에서 새치기를 지연시키는것은 체계의 동 
시성수준을 현저히 낮추기때문에 일반적으로 대역새치기금지를 피하고 그대신 다른 동기 
화기법 을 사용해 야 한다. 사실 대 역 새 치 기 금지 는 Linux 2. 4에 서 이 전장치 구동프로그람 
을 지원하기 위하여 남아 있지만 현재개발판본인 Linux 2. 6에서는 이것을 삭제하였다. 

o 례외에서 호출하는 자료구조체보호 

자료구조체를 례외조종기에서만 호출한다면 경쟁상태가 일어나는 경우를 쉽게 리해 
하고 방지할수 있 다. 

동기화문제를 일으키는 가장 일반적인 례외는 사용자방식프로그람에 봉사를 제공하 
려 고 CPU 가 핵 심 부방식 으로 바뀌 여 실 행 하는 체 계 호출봉사루린 이 다. (《 체 계 호출조종기 
와 봉사루린》참고) 따라서 례외에서만 호출하는 자료구조체는 대체로 하나이상의 프로 
쎄스에 할당할수 있는 자원을 나타낸다. 

신호기는 자원을 사용할수 있을 때까지 프로쎄스를 잠재울수 있으므로 이 기법을 리 
용하여 경쟁상태 를 막는다. 신호기는 단일처 리기체계과 다중처 리기체계 에서 모두 똑같이 
동작한다. 

o 새치기에서 호출하는 자료구조체보호 

어떤 자료구조체를 한 새치기조종기에서만 호줄한다고 하자. 《새치기처리》에서 매 
새치기조종기를 자기 자신에 대해 직렬화한다고 설명하였다. 즉 같은 새치기조종기를 둘 
이상 동시에 실행할수 없다. 따라서 자료구조체를 호출할 때 어떤 동기화기법도 필요없다. 
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그렇지만 여 러개의 새 치기조종기 에서 호출하는 자료구조체 라면 사정 이 달라진다. 

새치기조종기를 다른 조종기가 가로챌수도 있고 다중처리기체계에서는 서로 다른 새 
치 기 조종기 를 동시 에 실 행할수도 있 다. 동기 화를 하지 않으면 공유하는 자료구조체 가 쉽 
게 파괴될수 있다. 단일처리기체계에서는 새치기조종기의 모든 제한구역에서 새치기를 
금지하여 경쟁상태를 막을수 있다. 

다른 동기화기법으로는 이 작업을 완수할수 없으므로 다른 방법 이 없다. 신호기는 
프로쎄스를 차단할수 있기때 문에 새 치기조종기에서 사용할수 없다. 

반면에 스핀잠그기를 사용하면 자료구조체를 호출하는 새치기조종기를 가로챈 새로 
운 새치기조종기는 스핀잠그기가 열리기를 기다리며 순환을 반복하여 이전 조종기가 잠 
그기를 해제하지 못해 체계가 정지되게 된다. 일반적으로 다중처리기체계에서는 더 많은 
요구이 존재한다. 

국부새치기를 금지하는것만으로 경쟁상태를 막을수 없다. 사실 어느 CPU 에서 새치 
기를 금지하더 라도 다른 CPU 에서 새 치기를 계속 실행할수 있다. 

여기서 경쟁상태을 막는 가장 편리한 방법은 국부새치기를 금지하고 (그래서 이것을 
실행한 같은 CPU 에서 다른 새 치 기조종기 가 현재조종기 를 가로채지 못하게 하고) 그 자 
료구조체 를 보호하는 스핀잠그기 이 나 읽 기 /쓰기 스핀잠그기 를 획 득하는것 이 다. 

이렇게 추가로 스핀잠그기를 사용하는 경우 한 새치기조종기가 사용하려는 스핀잠그 
기 가 잡긴상태 라고 해도 잠그기를 소유하는 다른 CPU 에서 실행중인 새 치기조종기가 잠 
그기를 해제할수 있으므로 체계가 정지되는 일은 없다. 

Linux 핵심부는 새치기를 허용/금지하는 일과 스핀잠그기를 다루는 일을 같이 하는 
여 러 가지 마크로를 사용한다. 

표 8-8 은 이런 일을 수행하는 모든 마크로를 보여준다. 단일처리기체계에서는 스핀 
잠그기를 다루는 마크로가 아무 일도 하지 않으므로 이 마크로들은 국부새치기만을 허용 
하거 나 금지한다. 


& 8-8. 새치기를 Sfflo[ 는 스핀잠그7 


함 수 

설 명 

spin_lock_irq(l) 

local_irq_disable () ； preempt_disable () ；_raw_spi 
n lock(l) 

spin_unlock_irq (1) 

_raw_spin_unlock(l) ； local_irq_enable () ；preem 
pt enable() 

spin lock bh(l) 

local 一 bh disable( ) ； spin lock(l) 

spin_unlock_bh (1) 

spin_unlock(l) ； local_bh_enable() 
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spin_lock_irqsave(I, f) 

local_irq_save (f) ;preempt_disable() ； _raw_spin_ 
lock(l) 

spin_unlock_irq restore (i, f) 

_raw_spin_unlock (1) ； local_irq_restore (f) ；pree 
mpt enable() ； 

read_lock_irq(l) 

local_irq_disable () ； preempt_disable () ； _raw_rea 
d lock(l) 

read_unlock_irq (1) 

_raw_read_un 1 ock(1) ； local_irq_enable () ；preem 
pt enable() ； 

read lock bh(l) 

local bh disable( )； read lock(l) 

read un lock bh (1) 

read unlock(l) ； local bh enable( ) 

write_lock_irq (1) 

local_irq_disable () ； preempt_disable () ； _raw_wri 
te lock(l) 

write_unlock_irq (1) 

_raw_write_unlock(l) ； local_irq_enable() ；preem 
pt enable() 

write lock bh (1) 

local bh disable ( ) ； write lock(l) 

write 一 unlock bh (1) 

write unlock(l) ； local bh enable( ) 

read_lock_irqsave (i, f) 

local_irq_save (f); preempt_disable 0 ； _raw_read 
lock(l) 

read_unlock_irq restore (i, f) 

_raw_read_unlock(l) ； local_irq_restore(f) ；pree 
mpt enable() 

write_lock_irqsave (i, f) 

local_irq_save (f) ； preempt_disable () ; _raw_writ 
e lock(l) 

write_unlock_irq restore (i, f) 

_raw_write_unlock(l) ； local_irq_restore(f) ；pree 
mpt enable() ； 

read seqbegin irqsave (1, f) 

local irq save (f) ； read seqbegin (1) 

read_seqretry_irq restore (1, v 

,f) 

read_seqretry (1, v) ； local_irq_restore (f) 

write seqlock irqsave (1, f) 

local irq save(f) ； write seqlock(l) 

write_sequnlock_irq restore ( 
l,f) 

write_sequn 1 ock (1) ； local_irq_restore (f) 

write seqlock irq (1) 

local 一 irq disable( ); write seqlock(l) 

write sequnlock irq (1) 

write sequnlock(l) ； local irq enable ( ) 

write seqlock bh (1) 

local bh disable ( ); write seqlock(l) ； 

w rite_sequn 1 ock_bh (1) 

write_sequnlock(l) ； local_bh_enable( ) 
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O 지연함수에서 호출하는 자료구조체보호 

지 연함수에서 만 호출하는 자료구조체 에는 어떤 보호가 필요하는가하는것 은 대체로 
지연함수의 류형에 따라 좌우된다. 《프로그람적 새치기와 소작업, 하반부》에서 프로그 
람적 새 치 기 와 소작업，하반부는 기 본적 으로 동시성의 정 도가 다르다고 설 명 하였 다. 

무엇보다도 단일 처 리기 체 계 에서는 경 쟁 상태 가 있을수 없다. 한 CPU 에 서 지 연함수를 
항상 직렬로 실행하기때문이다. 즉 지연함수를 다른 지연함수가 가로챌수 없다. 따라서 
동기화기 법 이 필요없다. 반대 로 다중처 리기체 계 에서는 여 러 지 연함수를 동시 에 실행할수 
있기때문에 경쟁상태가 실제로 존재한다. 표 8-9 에서 모든 가능한 경우를 표시하였다. 


표 8-9. SMP 에시 지연 gj 수가 지신 此 i 새3 수■할 때 필요한 보호 


자료구조체를 호출하는 지연함수 

보호 

프로그람적인 새치기 

스핀 잠그기 

소작업 한개 

없음 

소작업 여러개 

스핀 잠그기 

하반부 

없음 


같은 프로그람적 인 새 치기를 두개 이상의 CPU 에서 동시 에 실행할수 있으므로 프로 
그람적인 새치기에서 호출하는 자료구조체를 스핀잠그기와 같은것을 리용하여 항상 보호 
해 야 한다. 

갈은 종류의 소작업은 동시에 실행할수 없기때문에 한 종류의 소작업에서 호출하는 
자료구조체는 보호할 필요가 없다. 그렇지만 여러개의 소작업이 호출하는 자료구조체인 
경우는 보호해야 한다. 마지막으로 하반부는 절대로 동시에 실행하지 않으므로 하반부에 
서만 호출하는 자료구조체를 보호할 필요는 없다. 

O 례외와 새치기에서 호출하는 자료구조체보호 

례외 (례를 들면 체계호출봉사루린)와 새치기조종기에서 모두 호출하는 자료구조체를 
보자. 

새치기조종기는 재진입할수 없고 례외가 새치기를 가로챌수 없으므로 단일처리기체 
계에서는 아주 간단하게 경쟁상태을 막을수 있다. 

핵심부가 국부새치기를 금지한 상태에서 자료구조체를 호출하는 동안에는 아무도 자 
료구조체를 호출하는 핵심부를 가로챌수 없다. 그렇지만 어떤 자료구조체를 한 종류의 
새 치 기조종기 에서 만 호출한다면 새 치기조종기는 국부새 치 기를 금지 하지 않고도 자료구조 
체를 자유롭게 호출할수 있다. 

다중처리기체계에서는 다른 CPU 에서 동시에 실행하는 새치기와 례외를 주의해야 
한다. 

국부새치기금지를 스핀잠그기와 같이 사용하여 조종기가 자료구조체를 호출하는 일 
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을 끝마칠 때까지 동시에 실행하는 핵심부조종경로를 기다리게 만든다. 때때로 스핀잠그 
기를 신호기로 바꾸는것이 좋은 경우가 있다. 새치기조종기를 보류할수 없으므로 새치기 
조종기에서는 down _ trylock () 함수를 호출하는 순환을 반복하여 신호기를 획득해야 한 
다. 이렇게 하면 신호기는 본질적으로 스핀잠그기처럼 동작한다. 반면에 체계호출봉사루 
린은 신호기가 사용중인 경우 자기를 호출한 프로쎄스를 보류할수 있다. 

대부분의 체계호출에서는 이런 식으로 동작한다. 이것은 체계의 동시성수준을 높이 
기때문에 합리적이다. 

0 례외와 지연함수에서 호출하는 자료구조체보호 

례외조종기와 지 연함수에서 모두 호출하는 자료구조체 는 례외와 새 치 기조종기 에서 
호출하는 자료구조체처럼 다룰수 있다. 사실 지연함수는 기본적으로 새치기발생에 의해 
활성화되기때문에 지연함수가 동작중일 때 례외가 발생할수 없다. 그러므로 국부새치기 
금지와 스핀잠그기를 함께 쓰는것으로 충분하다. 

례외 조종기는 local _ bh _ disable () 마크로를 사용하여 간단히 지연함수를 금지 할수 
있다. (《프로 그람적인 새치기》참고) 지연함수를 금지하면 해당 CPU 에서 새치기를 계 
속 처리할수 있으므로 새치기금지보다 더 합리적이다. 매 CPU 는 지연함수를 직렬로 실 
행 하므로 경 쟁상태는 없다. 마찬가지 로 다중처 러기체계 에서는 항상 하나의 핵 심부조종경 
로만 자료구조체를 호출할수 있도록 하기 의한 스핀잠그기 가 펼요하다. 

° 새치기와 지연함수에서 호출하는 자료구조체보호 

이 경우는 새치기와 례외조종기가 호출하는 자료구조체의 경우와 비숫하다. 

지연함수를 실행중일 때 새치기가 발생할수 있지만 지연함수는 새치기조종기를 멈출 
수 없다. 

따라서 국부새치기를 금지하여 경쟁상태를 막아야 한다. 그렇지만 새치기조종기는 
다른 새치기조종기가 같은 자료구조체를 호출하지 않는다면 지연함수가 호출하는 자료구 
조체를 새치기를 금지하지 않고도 자유롭게 다룰수 있다. 마찬가지로 다중처리기체계에 
서는 여러개의 CPU 에서 동시에 자료구조체를 호출하는것을 금지하기 위해 항상 스핀잠 
그기가 필요하다. 

O 례 외 와 새 치 기 , 지 연 함수에 서 호출하는 자료구조체 보호 

우의 경우와 마찬가지로 경쟁상태를 피하기 위해 국부새치기금지와 스핀잠그기가 항 
상 필요하다. 새치기조종기의 실행을 마칠 때 지연함수를 실행하므로 직접적으로 지연함 
수를 금지 할 필요는 없다. 따라서 국부새 치기금지로도 충분하다. 

2) 경 쟁 상태방지 실 례 

핵 심부개 발자는 겹 치는 핵 심부조종경 로에 의 해 발생 하는 동기 화문제를 파악하고 해결 
해야 한다. 그렇지만 경쟁상태를 피하려면 핵심부의 여러 구성요소들이 어떻게 호상작용 
하는가를 정확히 리해해야 하므로 매우 어려운 작업이다. 실지 핵심부코드안에 무엇이 있 
는가를 알수 있도록 앞에서 본 동기화기법을 사용하는 몇가지 전형적인 실례를 보여준다. 
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O 참조계수기 

핵심부내부에서 동시에 자원을 할당하거나 해제함으로써 발생할수 있는 경쟁상태를 
막기 위 해 참조계 수기 를 광범 하게 사용한다. 《 참조계 수기 (reference counter ) 》는 기 
억기폐지나 모둘，파일과 같은 특정한 자원에 관련된 atomic _ t 계수기 이다. 

핵심부조종경로에서 자원을 사용하기 시작하면 이 계수기를 하나 증가시키고 자원사 
용을 끝마치면 감소시킨다. 참조계수기가 0이 되면 자원을 사용하지 않는것으로 보고 
펼요하다면 자원을 해 제할수 있 다. 

0 대역 핵심부잠그기 

이 전 판본의 Linux 핵 심 부에 는《 대 역 핵 심 부잠그기 (global kernel lock , 대 형 핵 심 부 
잠그기 (big kernel lock ) 줄여서 BKL 이라고도 한다.)》를 광범하게 사용하였다. 

Linux 핵심부 2.0 판에서 이 잠그기는 동시에 한 처리기만 핵심부방식에서 실행할수 
있도록 하는 스핀잠그기였다. Linux 핵심부 2. 2는 훨씬 유연해져서 더는 한개의 스핀잠 
그기에 의존하지 않고 많은 수의 핵심부자료구조체를 특정화된 스핀잠그기로 보호하였다. 
한편 대형잠그기 를 여 러 개의 작은 잠그기들로 분할하여 교착과 경쟁상태를 막는 일은 그 
리 간단하지 않아서 대역핵심부잠그기를 남겨두었다. 그래서 아직까지 서로 관련이 없는 
여 러 핵 심부코드를 대 역핵 심부잠그기를 사용하여 직 렬화하였다. Linux 핵 심부 2. 4에서 
도 대 역핵심부잠그기의 역 할을 크게 축소하였 다. 현재 안정판본에서 대 역핵심부잠그기는 
대 부분 가상파일체 계 (Virtual File System ) 에 대 한 호출을 직 렬 화하거 나 핵 심 부모둘을 
적재하거나 해제할 때 발생할수 있는 경쟁상태를 막기 위해 사용한다. 이전 안정판본과 
비교하면 크게 발전한 점은 망전송이나 파일호출(정규파일에 읽거나 쓰기)을 대역핵심부 
잠그기 로 직 렬 화하지 않는다는것 이 다. 

Linux 핵심부 2. 4이후판본에서는 대역핵심부잠그기가 완전히 없어졌다. 

ᄋ 기억기서술자읽기/쓰기신호기 

mm _ struct 자료구조체 형의 매 기억 기서술자는 mmap _ sem 마당에 자기만의 신호기를 
가지 고있다. (《기 억 기서 술자》 sched . h 참고) 

이 신호기는 여러개의 프로쎄스에서 한개의 기억기서술자를 공유할수 있기때문에 
발생 할수 있는 경쟁상태를 방지한다. 례를 들어 핵심부가 프로쎄스에 새로운 기 억기구역 
을 할당하거 나 이미 할당한 구역 을 확장하려 고 하는 경우를 보자. 

핵심부가 do _ mmap () 함수를 호출하면 이 함수는 새로운 vm _ area _ stmct 자료구조 
체를 할당한다. 

이 과정에 사용가능한 기억기가 없으면 현재프로쎄스를 보류하고 같은 기억기서술자 
를 공유하는 다른 프로쎄스를 실행할수 있다. 신호기가 없다면 두번째 프로쎄스가 기억 
기서술자를 호출하는 어떤 작업이라도 하면(례를 들면 쓰기복사로 인한 패지절환) 자료 
구조체 를 파괴 할수 있 다. 폐 지 절 환례 외 조종기 (《 폐 지 절 환례 외 조종기》참고) 갈은 몇 가지 
핵심부함수는 기억기서술자를 읽기만 하기때문에 이 신호기는 읽기/쓰기신호기로 실현 
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한다. 

0 스랩캐쉬목록신호기 

스랩 캐 쉬 (slab cache) 서 술자의 목록(《 캐 쉬 서 술자》참고)을 cache_chain_sem 신호 
기로 보호한다. 이 신호기는 목록을 호출하고 수정하는 배타적인 권한을 부여한 
다. 八 mm\slab. c 에 서 선언 한 semaphore 구조체 형 의 정 적 변수) 

kmem _ cache _ slirinkO 함수나 kmem _ cache _ reap () 함수가 목록을 차례로 검색할 
때 kmem _ cache _ create () 함수가 목록에 새로운 항목을 추가하는 경우 경쟁상태 가 발생 
할수 있다. 

int kmem _ cache_shrink ( kmem _ cache_t * cachep ) 

{ 

if (! cachep || in _ interrupt ()) 

BUG ()； 

return — cache_shrink ( cachep ) : 

} 

그렇지만 새치기를 처려하는 도중에는 이 함수를 호출하지 않으며 이 함수는 목록을 
호출하고있는 동안에는 프로쎄스를 차단하지 않는다. 

핵심부가 비선취형이므로 이 함수는 단일처러기체계에서 겹치지 않는다. 그렇지만 
이 신호기는 다중처리기체계에서 중요한 역할을 수행한다. 

o 색인마디신호기 

Linux 는 디스크파일에 대한 정보를《색인마디 ( inode )》 라는 기억기객체에 보관한다. 

해당 자료구조체에는 자기만의 신호기인 i _ sem 마당이 있다. 파일체계를 다루는 과 
정에서는 경쟁상태가 많이 발생할수 있다. 실제로 디스크에 있는 매 파일은 모든 사용자 
가 사용할수 있는 자원이 다. 

모든 프로쎄스는 (잠재적으로)파일내용을 호출하거나 파일이름이나 경로를 바꾸고 
파일을 지우거나 복제하는 작업을 할수 있다. 례를 들어 한 프로쎄스가 어떤 등록부에 
있는 파일목록을 본다고 하자. 매 디스크작업은 잠재적으로 프로쎄스를 차단할수 있으며 
따라서 단일처리기체계라고 하더라도 다른 프로쎄스가 똑같은 등록부에 호출하여 이전 
프로쎄스가 등록부목록을 보는중인데도 등록부의 내용을 변경시킬수 있다. 또는 서로 다 
른 프로쎄 스가 동시 에 같은 등록부를 수정할수 있 다. 이 런 모든 경 쟁 상태 를 색 인마디 신 
호기를 리용하여 등록부를 보호함으로써 막을수 있다. 프로그람이 두개 이상의 신호기를 
사용할 때마다 서로 다른 두개의 조종경로에서 서로 상대 방이 신호기를 해제하길 기다리 
는 교착 ( deadlock ) 상태가 발생 할 가능성이 있 다. 일반적으로 Linux 에서 매 핵심부조 
종경로는 대부분이 한번에 신호기를 단 하나만 획득해 야 하므로 신호기요구와 관련한 교 
착문제는 거의 없다. 그렇지만 핵심부가 두개의 신호기잠그기를 얻어 야 하는 경우가 몇 
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가지 있 다. 바로 색 인마디 신호기 에 서 이 런 상태 가 발생 하기 쉽다. 

례를 들면 rmdirO 와 renameO 체계호출을 처리하는 봉사루린에서 이런 상황이 발 
생 한다. (두 경 우에 그 작업 에 두개의 색 인마디 가 관련되 기 때 문에 두개의 신호기 를 모두 
획득해야 한다.) 이러한 교착을 피하기 위하여 주소순서에 따라 신호기에 대한 요구를 
수행 한다. 즉 semaphore 자료구조체가 있는 주소가 낮은 신호기에 대한 요구를 먼저 하 
는것 이 다. 


제 2절. 시간동기측정 

콤퓨터 에서 이루어지는 수많은 동작은 시 간동기 측정 (timing measurement) 에 따라 
동작하며 이것은 때때로 사용자도 모르게 이루어진다. 례를 들어 를퓨터콘솔을 일정한 
시간동안 사용하지 않을 때 자동으로 화면이 꺼진다면 이것은 핵심부에 사용자가 건반을 
누르거나 마우스를 움직인후 시간이 얼마나 지났는가를 알수 있게 하는 시계가 있기때문 
이다. 체계가 사용하지 않는 파일을 지울것인가를 묻는다면 이것은 모든 사용자파일중에 
서 오랜 시간동안 사용하지 않은 파일을 구별할수 있는 프로그람이 알려주기때문이다. 
이런일을 하려면 프로그람은 파일에 마지막으로 호출한 시간의 시간정보 (timestamp) 를 
알아낼수 있어야 하며 핵심부가 이러한 시간정보를 자동으로 기록해야 한다. 더 중요한 
작업 으로 시 간동기 를 통해 프로쎄 스를 절 환하는것 뿐만 아니 라 시 간넘 침 (t 加 e-out) 을 검 
사하는것과 같은 눈으로 볼수 있는 핵심부작업을 할수 있다. 

Linux 핵심부가 수행해 야 하는 시간동기측정은 크게 두가지 종류로 나눌수 있다. 

•현재 날자와 시간을 유지하여 사용자프로그람이 time () 이나 f time () , 
gettimeof day 0 체계 호출 (《time 0, ftimeO , gettimeofdayO 체계 호출》을 참고) 을 
호출하면 이것을 되돌리고 핵심부자체에서 파일과 망파케트 ( packet ) 의 시간정보로 사용 
한다. 

■ 핵심부나 ( 《시계의 역할》참고) 사용자프로그람에 ( 《 setitimerO 와 alarmO 체계 
호출》참고) 어떤 정해준 시간이 지났다는것을 알려주는 기구인 시계를 관리한다. 

시 간동기 측정 은 고정 된 주파수로 동작하는 발진기 (oscillator) 와 계 수기 (counter) 
를 기반으로 하는 여 러가지 하드웨 어회 로를 통해 수행 한다. 

이 절은 크게 네 부분으로 이루어진다. 먼저 시간동기의 토대가 되는 하드웨어장치 
를 설명하고 Linux 에서 시간을 관리하는 전체적인 구조를 보여준다. 다음은 CPU 시분 
할 (time sharing) 실현이나 체계 시 간과 자원사용통계 갱 신, 쏘프트웨 어 시계 관리 등 핵심 
부가 해야 하는 시간과 관련된 주요임무를 설명한다. 
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마지막에 시간동기측정과 관련한 체계호출과 해당 봉사루린을 설명한다. 

1. 하드•웨어시계 

80 x 86 기 본방식 에 서 핵 심 부는 실시 간시 계 ( RTC : Real Time Clock ) , 시 간정 보계 
수기 ( TSC : Time Stamp Counter ) , 프로그람가능한 간격시계 ( PIT : Programmable 
Interval Timer ) 그리고 SMP 체계에 있는 국부 APIC 시계라는 4가지 시계와 호상작용 
해 야 한다. 앞에 있는 두가지 장치는 핵심부가 현재 날자와 시간을 알수 있게 한다. 핵 
심부는 PIC 장치와 국부 APIC 시계를 프로그람적으로 미 리 정 해놓은 고정된 주파수로 새 
치기 가 발생할수 있게 한다. 이 런 정기 적 인 새 치 기는 핵 심부와 사용자프로그람에서 사용 
하는 시 계 를 실 현 하는데 필 수적 이 다. 

1) 실시간시계 

모든 개 인용콤퓨터 에 는 CPU 를 비 롯한 다른 모든 소편과 무관계하게 동작하는《 실 
시 간시 계 ( RTC:Real Time Clock ) 》가 있 다. 

RTC 는 를퓨터의 전원이 꺼진 후에도 작은 충전지나 축전지를 통해 전지를 공급받 
기때문에 계속 동작한다. CMOS RAM 과 RTC 는 Motorola 146818이나 이와 동등한 
일을 하는 한개의 소편에 통합되여있다. RTC 는 2 Hz 부터 8192 Hz 사이의 주파수로 IRQ 8 
로 정기적 인 새 치 기를 발생시킬수 있다. 또한 RTC 가 특정한 값에 도달하면 IRQ 8 에 
새치기를 발생시키도록 프로그람적으로 지정해놓으면 경보 ( alarm ) 시계로도 동작할수 있 
다. 

Linux 는 RTC 를 날자와 시간을 알아내는 용도로만 사용한다. 그러나 / dev / rtc 장 
치파일을 통해 프로쎄 스가 RTC 를 프로그람적 으로 조종할수 있도록 한다. 핵 심 부는 
0 x 70 과 Oxn 입 출력포구( I 八) Port ) 를 통해 RTC 를 호출한다. 체계관리 자는 이 두개의 
입출력포구에 직접 동작하는 《 clock 》 Unix 체계프로그람을 실행하여 시간을 설정할수 
있 다. 

2) 시간정보계수기 

모든 80 x 86 극소형처 리 기는 외부발진기 에서 박자 ( clock ) 신호를 받는 CLK 입 력 단자 
를 가진다. 

펜 터 움부터 시작하여 최근에 나온 여러가지 80 x 86 극소형 처리기에 는 64 bit 시간정보 
계수기 ( TSC : Time Stamp Counter ) 등록기가 있다. 이 값은 rdtsc 기호언어 명령어로 
읽 을수 있 다. 이 등록기 는 박자신호를 받을 때 마다 증가하는 계 수기 이다. 례 를 들어 박 
자가 400 MHz 로 동작하면 시 간정 보계 수기 값은 2. 5 ns 마다 증가한다. 

Linux 는 이 등록기를 리용하여 프로그람가능한 간격시계보다 훨씬 정밀하게 시간 
을 측정한다. 이를 위해 Linux 는 체계를 초기화할 때 박자신호의 주파수를 알아내야 
한다. 핵심부를 콤파일할 때 이 주파수를 선언하지 않기때문에 똑같은 핵심부를 박자가 
다른 CPU 에서 실행할수 있다. 
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실지 CPU 의 주파수를 알아내는 작업은 체계를 기동할 때 진행한다. 
calibrate _ tsc () 함수는 어느 정도 긴시간간격 (50.00077 ms ) 동안 발생한 박자신호수를 
계 수하여 주파수를 계 산한다. ( common , c 참고) 

앞에 있는 시간간격상수는 프로그람가능한 간격시계의 통로가운데서 하나를 적당히 
설정 하여 나온것 이 다. calibrate _ tsc () 함수는 체 계 초기 화시 에 만 호출하므로 실 행 시 간이 
길더라도 문제가 되지 않는다. 

3) 프로그람가능한 간격시계 

실시 간시계 와 시 간정 보계수기외 에도 IBM 호환콤퓨터 에는 《 프로그람가능한 간격시 
계 ( PIT : Programmable Interval Timer ) 》라는 시 간측정장치가 있다. 

PIT 의 역할은 전자료리기에서 사용자가 료리시간이 지났는가를 알수 있게 해주는 
경보시계와 비슷하다. PIT 는 종을 울리는 대신 《시계새치기 (timer interrupt )》 라는 
특별한 새치기를 발생시켜 핵심부에 시간간격이 하나이상 지났다는것을 알려준다. 경보 
시계와 또 다른 차이는 PIT 는 핵심부가 지정한 고정된 주파수로 영원히 새치기를 발생 
시킨다는것이다. 매 IBM 호환를퓨터마다 적어도 PIT 가 하나씩 있으며 보통 0 x 40-0 x 43 
입출력포구를 사용하는 8254 CMOS 소편을 리용한다. 

뒤에서 보지만 Linux 는 를퓨터의 첫번째 PIT 를 (대략) 100 Hz 주파수로 즉 10■마 
다 한번씩 IRQ 0 에 시계새치기를 발생시키도록 한다. 이 시간간격을 가리켜 《릭크 
( tick )》 라고 하며 吐 ck 변수에 릭크의 길이를 ms 단위로 변환하여 보관한다. 릭크는 체계 
의 모든 동작에 박자를 맞추어 준다. 어떤 면에서는 음악가가 련습할 때 박자기 
( metronom ) 가 내는 틱크와 비슷하다. 

일반적으로 릭크가 짧으면 시계의 해상도가 높아져 다매체재생을 부드럽게 하고 동 
기적으로 다중입출력을 할 때 ( poll () 이나 selectO 체계호출)반응시간이 짧아진다. 그렇 
지만 틱크가 짧아지면 CPU 가 핵심부방식에서 더 많은 시간을 보내 야 한다. 즉 사용자 
방식에 있는 시간이 줄어들고 결과적으로 사용자프로그람의 실행이 느려진다. 따라서 매 
우 성능이 높은 콤퓨터만이 매우 짧은 릭크을 선택해야 한다. 현재는 HP 의 Alpha 와 
Intel 의 IA -64 로 실현 ( porting ) 한 Linux 핵심부만이 초당 1024번 즉 대략 1 ms 마다 한 
번씩 시계새치기를 발생시킨다. Alpha station 은 가장 높은 릭크주파수를 선택하여 시 
계새 치기를 초당 1200번 발생시킨다. 

Linux 코드에서는 다음과 같은 마크로들을 통해 시계새치기의 주파수를 결정하는 
상수를 만든다. 

• HZ 는 초당 시계새치기의 회수 즉 시계새치기의 주파수를 나타낸다. IBM PC 와 
대부분의 다른 하드웨어장치에서 이 값은 100이다. 

• CLOCK _ TICK _ RATE 는 8254소편의 내부발진기주파수인 1193182이다. 

• LATCH 는 CLOCK _ TICK _ RATE 와 Hz 사이의 비 률이 다. PIT 를 프로그람적 으 
로 작성할 때 이것을 사용한다. 


708 


透資© @資變©^ 


때 8 장. 


setup _ pit _ timer () 함수는 PIT 를 다음과 같이 초기화한다. 
spin _ lock_irqsave (& i 8253_ lock , flags ) : 
outb _ p (0 x 34,0 x 43) : 
udelay ( lO ) : 

outb_p (LATCH & Ox 打， 0 x 40); 

udelay ( lO ) : 

outb 

(LATCH » 8, 0 x 40); 

spin _ unlock _ irqrestore (技 i 8253_ lock ， flags ) : 

C 함수 ou 仕 >0 는 기호언어명령어와 같다. 이 함수는 두번째 피연산자로 지정한 입 
줄력포구에 첫번째 피연자로 지정한 값을 복사한다. outb _ p () 함수는 outb 0와 비슷하 
지만 아무 일도 하지 않는 명령어를 실행하여 잠간 원다는 점이 다르다. 맨 처음 호출하 
는 ou 1: b _ p () 는 PIT 가 새로운 속도로 새치기를 발생시키도록 명령한다. 다음에 호출하 
는 outb _ p () 와 ou 比) () 는 장치에 새로운 새치기속도를 지정한다. 

장치의 8 bit 0 x 40 입출력포구로 16 bit LATCH 상수를 련속 2 B 를 쓴다. 결과적으 
로 PIT 는 (대 략) 100 Hz 주파수로(즉 10 ms 마다) 시계새 치기를 발생시킨다. 

4) CPU 국부시계 

최근 Intel 처리기에 있는 국부 APTC 는 (《새치기와 례외》참고) 또 다른 시간측 
정장치인 《CPU 국부시계 (CPU local timer )》 기능도 제공한다. CPU 국부시계는 방금 
전에 설명한 프로그람가능한 간격시계와 비슷하게 한번 또는 정기적으로 새치기를 발생 
시킬수 있는 장치 이다. 그렇지만 다음과 같은 몇가지 차이가 있다. 

• APIC 시계계수기는 32 bit 크기지만 PIT 의 시 계계수기는 16 bit 크기 이 다. 따라서 
매우 낮은 주파수로 새 치기를 발생시키도록 국부시계를 프로그람적 으로 설정할수 있다. 
(계수기는 새치기가 발생하기까지 경과하는 릭크수를 보관한다.) 

■ 국부 APIC 시계는 자기의 처리기에만 새치기를 전달하지만 PIT 는 체계에 있는 모 
든 CPU 에 서 처 리 할수 있 는 대 역 새 치 기 를 발생 시 킨 다 . 

• APIC 시계는 모선박자신호(또는 이전장치에서는 APIC 모선신호)를 기반으로 한다. 
그리고 1번 또는 2, 4, 8, 16, 32, 64, 128번 모선박자신호마다 시계계수기를 줄이도록 
프로그람적 으로 설 정할수 있 다. 반대 로 PIT 는 자기 만의 내 부박자발진기 를 가지 고있 다. 

5) 고정 밀 도사건시 계 ( HPET ) 

고정밀도사건시계 ( HPET ) 는 인텔과 마이 크로쏘프트가 공동으로 개 발한 새 로운 시 계 
단위 이 다. HPET 를 말단사용자들이 잘 모르지만 Linux 2. 6에서는 지 원하므로 그 특성 에 
대 하여 몇가지 만 서술한다. 

HPET 는 핵심부가 관리할수 있는 일정한 수의 하드웨어시계를 제공한다. 기초적으로 
소편은 8개의 32 bit , 혹은 64 bit 의 독립적인 계수기들을 포함한다. 매 계수기들은 자체의 


透資邊 @資變©^ 


709 


Linux 행심부해설서 

박자신호에 의해 구동하며 적어도 10 MHz 이상이므로 계수기는 100 ns 에 적어도 1번이상 
증가된다. 매 계수기는 대체로 32개시계와 련관을 가지는데 비교기와 정합등록기로 구성 
된 다. 

HPET 소편은 기억기공간속에 넘겨진 등록기를 통해 프로그람화할수 있다 . ( I 八) 
APIC 와 매우 류사하다.) 

6) ACPI 전원관리시계 

이것은 APIC 에 기초한 거의 모든 주기 판들에 포함되 여있는 또 하나의 박자장치 이 다. 
주파수는 대 략적으로 3.58 MHz 이 다. 장치는 박자당 단일계수기를 증가한다. 계수기의 현 
재값을 읽기 위해 핵 심부는 초기화시 에 BIOS 가 결정 하는 I 八)포구주소에 접근한다. 

ACPI 전원관리시계는 조작체계나 BIOS 가 충전기전원을 보호하기 위해 CPU 들의 주 
파수나 전압을 동적으로 떨구려 할 때 TSC 보다 오히려 더 나은 감이 있다. 

Linux 핵심부가 체계의 모든 작업을 이끌어나가기 위해서 이것을 어떻게 리용하는 
가를 보자. 

2. Linux 시간관리구조 

Linux 는 시간과 관련한 여러가지 동작을 수행한다. 례를 들어 핵심부는 정기적으 
로 다음과 같은 일을 한다. 

• 체계가 기동한 때 부터 경과한 시간을 갱신한다. 

• 날자와 시간을 갱신한다. 

• 모든 CPU 에서 현재프로쎄스가 얼마나 오래동안 실행중인가를 확인하고 이 시간 
이 프로쎄스에 할당된 시간을 넘어서면 프로쎄스를 선취한다 . 

• 자원사용통계를 갱신한다. 

• 매 프로그람시계(《시계의 역할》참고)에서 지정한 간격 이 지났는가를 검사한다. 
Linux 의 《 시간관리구조》는 시간흐름과 관련있는 핵심부자료구조체와 함수의 집 

합이 다. Intel 기 반다중처 리 기 를퓨터 의 시 간관리 구조가 단일 처 리 기 름퓨터 와는 조금 다르 
다. 

• 단일처리기체계 에서 모든 시간관리작업은 프로그람가능한 간격시계가 발생시키는 
새치기에 의해 일어난다. 

■ 다중처리기체계에서 일반적 인 작업 (프로그람적 인 시계처 리 등)은 PIT 가 발생시키 
는 새치기에 의해 일어나지만 CPU 마다 일어나는 작업 (현재 실행중인 프로쎄스의 실행 
시간을 감시하는 등)은 국부 APIC 시계가 발생시키는 새치기에 의해 일어난다. 

하지만 이 두가지 경우의 경계는 모호하다. 례를 들어 Intel 80486 처리기기반 초 
기 SMP 체계에는 국부 APIC 가 없다. 심지어 현재까지도 오유가 많아서 국부시계를 사 
용할수 없는 SMP 주기판이 있다. 이런 경우에 SMP 핵심부는 단일처리기의 시간관리구 
조에 의거할수밖에 없다. 반면에 최 신단일처 리 기체계 에도 국부 APIC 와 입출력 APIC 가 
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있어서 핵심부는 SMP 의 시간관리구조를 리용할수 있다. 다른 중요한 경우로 단일처리 
기름퓨터에서 SMP 를 지원하는 핵심부를 실행하는 경우가 있다. 그렇지만 간단히 설명 
하기 위해 이 런 복합적 인 경우는 취급하지 않고 두가지 《순수한》시 간관리구조만 보기 
로 한다. 

Linux 의 시간관리구조는 시간정보계수기 ( TSC ) 가 있으면 이것을 리용한다. 핵심부 
는 두가지 기본적인 시간관리기능을 사용한다. 하나는 현재시간을 최신으로 유지하는것 
이고 다른 하나는 현재 IS 내에서 경과한 MS 를 세는것이다. 이 tfS 를 알아내는 방법은 
두가지이다. CPU 에 시간정보계수기가 있으면 이것을 리용하는것이 더 정확하지만 없는 
경우에는 다른 방법을 사용한다. (《 time (), ftime () , gettimeofdayO 체계호출》참고) 

1) 시간관리자료구조체 

핵 심 부 2. 6의 시 간관리 구조는 많은 자료구조체 들을 리 용하도록 되 여있 다. 일 반적 으 
로 80 x 86 구성방식에 기초하여 기본적 인 변수들을 서술하게 된다. 

•timer 객 체 

가능한 시간관리자원들을 갈은 방법으로 처 리하기 위해 핵심부는 timer 객체를 리용 
하는데 이 객체는 다음의 표에 제시되는 timer 이름과 4개 표준메쏘드들로 이루어지는 
timer _ opts 형 의 서 술자이 다. 


표 8-10. _ 吐 mer _ opts 자료구조체의 □당 


마당이름 

설명 

Name 

timer 원천식별을 위한 문자렬 

mark_offset 

마지 막순간의 정 확한 시 간에 대 한 
기록. 시간새치기처리 때에 쓰인다. 

get_offset 

마지막순간에 측정된 시간을 되돌려 
준다. 

Monotonic_clock 

핵심부초기화후부터 ns 계수값을 되 
돌린다. 

Delay 

(loops > 개 수만큼 대 기 (《지 연함 
수》참고) 


timer 객체의 기본메쏘드들은 mark _ offset 와 get _ offset 이 다. 
mark _ offset 메쏘드는 시간새치기처리기에 의해 러용되며 정확한 시간을 자기의 자 
료구조체에 기록한다. get _ offset 메 쏘드는 기록된 값을 리 용하여 마지막시간새치기 
( tick ) 때로부너 ms 단위로 측정된 시간을 계산한다. 이 두 메쏘드를 리용하여 리눅스시 
간관리구조는 시간분할의 방도를 얻어낸다. 이로 해서 핵심부는 새치기간격보다 더 높은 
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정 확성 을 가지 고 현재 시 간을 결정 할수 있 다. 이 조작을 시 간보정 (timer interpolation ) 
이 라고 부론다. 

cur _ timer 변수는 체계에서 가능한《제일 좋은》 timer 자원에 따라 timer 객체의 
주소를 저장한다. cur _ timer 는 핵심부가 초기화될 때 러용되는 dummy timer 원천에 
대 응하는 객체인 社 mer _ none 을 지적 한다. 핵심부초기 화기 간에 select _ timer () 함수는 
적당한 timer 객체의 주소에 cur _ timer 를 설정한다. 표 8-11 는 참고로 80 x 86 방식에서 
쓰이는 기본적인 timer 객체들을 보여준다. 알수 있는것처럼 select _ timer () 는 가능하면 
HPET 를 선택한다. 다시 말해서 가능하면 ACPI 전원관리시계 또는 TSC 를 선택한다. 
마지막에 select _ timer () 는 상용 PIT 를 선택한다. 《 시간보정》렬은 仕 mer 객체의 
mark _ offset 와 get _ offset 메쏘드들이 리용하는 timer 원천들을 보여주며 《지연》렬은 
delay 메쏘드가 리용하는 timer 원천들을 보여준다. 


표 8-11. _ 80 x 86 방식에서의 표준 timer 객제불 


Timer 객체 이름 

설명 

시간보정 

지연 

Timer_hpet 

고정 확도사건 Timer 
( HPET ) 

HPET 

HPET 

timer_pmtmr 

ACPI 전원관리 Time 
r (ACPI PMT ) 

ACPI PMT 

TSC 

Timer tsc 

시 간표계 수기 ( TSC ) 

TSC 

TSC 

Timer_pit 

프로그람가능한 간격 
시계 ( PIT ) 

PIT 

Tight loop 

Timer_none 

일반 dummy timer 

원천 (핵심부초기화시 

에 리용) 

( none ) 

Tight loop 


국부 APIC 시계는 대응하는 timer 객체가 없다. 그 리유는 국부 APIC 시계들이 주기 
적 인 새 치 기 발생 에 만 쓰이 고 시 간분할 ( sub - tick ) 에 는 리 용되 지 않기 때 문이 다. 

•ji 打 ies 변수 

jiffies 변수는 체계가 시작한 때로부터 측정된 박자수를 저장하는 계수기이다. 시 
계새치기가 발생하면 매 순간 하나씩 증가한다. 80 x 86 방식에서는 jiffies 가 32 bit 변수이 
므로 리눅스봉사기에 대하여 짧은 시간간격으로 50일에 근사시킨다. 핵심부는 
time _ after , time _ after _ eq , time _ before , 仕 me _ before _ eq 마크로들을 리 용하여 jiffies 
의 자러넘침을 정확히 처리한다. 

체계가 시작할 때 jiffies 는 0으로 초기화된다고 생각할수 있다. 실제로 jiffies 는 
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0 xfffb 6 c 20 으로 초기화되는데 이것은 30만을 32 bit 로 표시한 값에 해당한것이다. 그러 
므로 계수기는 체계기동후에 5 min 을 넘길것이다. 이것은 jiffies 의 자리넘침검사도 제대 
로 못하는 오유가 있는 핵심부코드를 개발국면에서 될수록 빨리 보여주며 핵심부안정판 
에서 무시되지 않도록 할 목적에서 진행된다. 

일부 경우에 핵심부는 jiffies 의 자리넘침에는 관계없이체계기동후부터 측정한 체계 
박자의 실제값을 요구하기도 한다. 그러므로 80 x 86 방식에서는 jiffies 변수를 jiffies _64 
로 부르는 64 bit 계수기의 기본비트보다 작은 32 bit 에 대한 련결과 동일시한다. 1 ms 간격 
으로 jiffies _64 변수는 수백년을 기록할수 있으므로 자리넘침이 전혀없이 안전하다는것을 
알수 있다. 

80 x 86 방식에서 64 bit unsigned long long 옹근수형으로 직접 jiffies 를 선언하지 못 
할수 있다고 우려할수 있다. 그에 대한 대답은 32 bit 방식에서 64 bit 에 대한 접근이 자동적 
으로 진행될수 없다는것이다. 그러므로 전체 64 bit 에 대한 모든 읽기조작은 계수기는 그 
냥 두고 두개 의 32 bit 짜리 반계 수기 ( half - counter ) 를 읽 는것 을 보정 하는 동기 화기 술이 요 
구된다. 결과적으로 모든 64 bit 읽기조작은 32 bit 읽기조작보다 신호적으로 떠진다. 

get _ jiffles _64() 함수는 jiffies _64 의 값을 읽어 그 결과를 되돌린다. 
unsigned long long getJiffies _64( void ) 

{ 

unsigned long seq ； 
unsigned long long ret ； 
do { 

seq = read_seqbegin (技 xtime _ lock ) : 
ret = jiffies _64； 

} while ( read _ seqretry (& xime _ lock , seq )); 
return ret ； 

} 

64 bit 읽기조작은 x 仕 me_lock seqlock 에 의해 보호된다. 함수는 정확히 다른 핵심부 
조종경 로에 의 해 현재 변경되지 않는다는것을 알 때까지 jtffies _64 변수를 계속 읽기 한다. 

거꾸로 jiffies _64 변수를 증가하는 제한지역은 write _ seqlock(&x 仕 me _ lock ) 와 
write _ sequnlock (& xtime _ lock ) 에 의 해 보호되여야 한다. ++ jiffies _64 명령 또한 
jiffles _64 d 의 아래 절반에 대 응하기때 문에 32 bit jiffies 변수를 증가시 킨다. 

•xtime 변수 

xtime 변수는 현재 시 간과 날자를 저장하는데 다음의 두 마당을 가지는 timesepc 형 
의 구조체 이다. 

tv_sec : 1970년 1월 1일 ( UTC ) 0시부터 측정된 초수를 기록한다. 

tv_nsec : 마지 막초내 에 측정된 ns 의 수를 저장한다. (0 부터 999999999사이 범위 
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의 값을 자진다.) 

xtime 변수는 보통 매 박자마다 변경되는데 초당 대략 1000번이다. 후에 보겠지만 
사용자프로그람은 xtime 변수로부터 현재 시간과 날자를 얻는다. 핵심부 또한 자주 그것 
을 참조하는데 례를 들면 仕 mestamps 매듬을 변경할 때 리용한다. 

xtime_lock seqlock 는 x 出 me 변수에 대한 동시접근에 의하여 일어나는 경쟁조건을 
피한다. xime _ lock 는 jiffles _64 변수도 보호하기때문에 일반적으로 이 seqlock 는 시간 
관리 구조의 여 러 가지 제 한지 역정 의 에 리 용된다. 

2) 단일처리기체계의 시간관리구조 

단일처리기체계에서 시간과 관련한 모든 작업은 프로그람기능한 간격시계가 IRQ 0 으 
로 발생시키는 새치기에 의하여 일어난다. 다른 새치기와 마찬가지로 Linux 는 이러한 
작업 의 일부를 새 치 기 가 발생 하는 즉시 처 리 하고 (새 치 기 조종기 의 《 상반부 (top half ) > 
에 서 ) 나머 지 작업 은 지 연실 행 한다. (새 치 기 조종기 의 《 하반부 (bottom half ) 》에 서 ) 

O PIT 의 새치기봉사루린 

timeJnitO 함수는 핵 심부초기 화를 할 때 IRQ 0 의 새 치 기 문를 설정 한다. (仕 me . c 참고) 

이것을 수행하고 나면 IRQ 0 의 irqac 仕 on 서술자의 handler 마당은 
吐 mer _ intermpt () 함수의 주소를 담는다. IRQ 0 주요서술자의 flags 마당에 
SA _ INTERRUPT 기발을 설정하기때문에 이 함수는 새치기를 금지한 상태에서 실행된다. 

이 함수는 다음과 같은 단계 를 실 행한다. 

1. CPU 에 TSC 등록기가 있으면 mark _ offset _ tsc () 함수를 실행한다. 

이 함수는 다음과 같은 동작을 진행한다. 

i . rdtsc 기호언어명령어를 실행하여 TSC 등록기의 아래자리 32 bit 를 

last _ tsc _ low 변수에 보관한다. 

ii . 8253소편장치의 내부발진기상태를 읽어 시계새치기가 발생한 때부터 새 
치기봉사루린을 실행할 때까지 지연된 시간을 계산한다. 

iii . 지연된 시간을 /대단위로 환산하여 delay _ at _ last _ interrupt 변수에 보관 
한다. 후에 《 time (), ftimeO , gettimeofdayO 체계호출》에서 보지만 사용자프 
로쎄스에 정확한 시간을 제공하려고 이 변수를 사용한다. 

2 . do _ timer_interrupt 0 함수를 호출한다. 

모든 80 x 86 모형에서 공통적인 새치기봉사루린이라고 할수 있는 

do _ timer _ intermpt () 함수는 다음과 같은 동작을 수행 한다. 

1. do _ timer () 함수를 호출한다. 이 함수는 곧 자세 히 설명 한다. 

2. 핵심부방식에 있을 때 시계새치기가 발생하였다면 x 86_ do 』 rofile () 함수를 호출 
한다. 

3. adj 吐 mex () 체계호출을 실행한 경우 660 s 마다 한번, 즉 llmin 마다 한번씩 
set _ rtc _ mmss () 함수를 호출하여 실시간시계를 정확히 설정한다. 이 기능은 망으로 련 
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결된 체계들이 시계를 똑같이 맞출수 있게 한다. (《 adjtimexO 체계호출》참고) 

do _ timer () 함수는 새치기를 금지한 상태에서 실행하므로 가능한 빨리 실행해야 한다. 

이런 리유로 이 함수는 단순히 체계를 시작한 때부터 경과한 시간을 나타내는 기본 
적인 값 하나만을 갱신하고 현재 실행중인 프로쎄스가 자기의 시간을 다 소비했는가를 
검사하고 시간정보를 갱신한다. 

이 함수는 다음과 같다. 

void do_timer (struct pt_regs * regs ) 

{ 

jiffies _64++； 

update_proces s_times ( user_mode ( reqs )); /* 단일 처 리 기 체 계 에 서 만 

*/ 

update_times () : 

} 

대역변수 jiffies _64 는 체계를 시작한 때부터 경과한 릭크의 수를 보관한다. 핵심부 
를 초기화할 때 이것을 0으로 설정하고 시계새치기가 발생할 때마다 즉 매 턱크마다 1 
씩 증가시킨다. ji 打 ies _64 는 64 bit 의 부가 아닌 정수이므로 체계시동후 497일정도 지나 
면 0으로 돌아간다. 그렇지만 핵심부는 자리 넘 침 ( overflow ) 이 발생 하더 라도 혼동하지 
않고 이것을 잘 처리한다. update _ process _ times 0함수는 기본적으로 현재프로쎄스가 
얼마나 오래동안 실행중인가를 검사한다. 《 CPU 의 시분할》에서 설명한다. 마지막으로 
update _ times 0 함수를 호출한다. update _ times 0 함수는 체계 날자와 시간을 갱신하고 
현재체계부하를 계산한다. 이런 작업은 나중에 《날자와 시간갱신》과《체계통계갱신》 
에서 설명한다. 

3) 다중처리기체계의 시간관리구조 

다중처리기체계에서도 프로그람가능한 간격시계가 발생시키는 시계새치기가 여전히 
중요한 역할을 한다. 실례로 해당 새치기조종기는 프로그람시계처리나 체계시간을 최신 
으로 유지 하는것 은 특정한 CPU 에 극한되 지 않는 작업 을 수행 한다. 

단일처 리기체계에서와 같이 대부분의 급한일은 새치기조종기의 《상반부》에서 실행 
하고 (《PIT 의 새치기봉사루린》참고) 나머지 작업은 지연실행한다. 그렇지만 SMP 용 
PIT 새 치기봉사루린은 단일처리기용과는 몇가지 차이가 있다. 

• timer _ interrupt () 함수는 x 社 me_lock 읽기/쓰기스핀잠그기를 쓰기용으로 획득한다. 

국부새치기를 금지하더라도 핵심부는 다른 CPU 가 xtime 과 last _ tsc _ low , 

delay _ at_last _interrupt 대 역 변수를 동시 에 읽거 나 쓰지 않도록 보호해 야 한다. (《 날 
자와 시 간갱 신》참고) 

• x 86_ do _ profile () 함수는 특정 한 CPU 에 련관된 일을 수행하기 때문에 

do _ timer _ interrupt () 함수는 이것을 호출하지 않는다. 
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■ update _ process_times 0 함수는 특정 한 CPU 에 련관된 일을 수행하기 때문에 
do _ timer () 함수는 이것을 호출하지 않는다. 

체계에 있는 모든 개별 CPU 와 련관된 시간관리작업은 두가지이다. 

■ 현재프로쎄스가 해당 CPU 에서 얼마나 오래동안 실행중인가를 감시 

• CPU 의 자원사용통계 갱신 

Linux 핵심부에서는 전체적 인 시간관리구조를 간단하게 하려고 이런 작업을 CPU 
에 내장된 APIC 장치가 발생시키는 국부시계새치기의 조종기에서 처리한다. 이렇게 해 
서 모든 CPU 는 자기의 《개인》자료구조체만 호출하기때문에 스핀잠그기를 호출하는 
회수가 줄어든다. 

o 시간관리구조의 초기화 

핵 심부를 초기 화할 때 매 APIC 에 얼마나 자주 국부시 계새 치기를 발생시킬수 있는 
가를 설정한다. setup _ boot _ APIC _ clock () 함수는 다음과 같이 모든 CPU 의 국부 
APIC 를 설정하여 새치기를 발생시키게 한다. 

void — init setup _ boot _ APIC_clock ( void ) 

{ 

printkC'Using local APIC timer interrupts . \ n ") : 
using _ apic_timer = 1； 

local _ irq_disable () : 

calibration_result = calibrate _ APIC_c 1 ock () : 
setup _ APIC_timer ( calibration_res u 11) : 
local _ irq_enable () ； 

} 

cal 比) rate _ APIC _ clock () 함수는 시동하는 CPU 에서 틱크 (10 ms ) 한번동안에 국부 
APIC 가 몇번이나 국부시계새치기를 발생시키는가를 계산한다. 그래서 이 정확한 값을 
사용하여 국부 APIC 가 턱크마다 한번씩 국부시계새치기를 발생시키도록 설정한다. 이것 
은 setup _ APIC _ timer () 함수의 역할이다. 시동하는 CPU 에서는 이 함수를 직접 호출하 
고 다른 CPU 에 서 는 CALL _ FUNCTION _ VECTOR 처 리 기 간새 치 기 ( IPI ) 를 통해 호출 
한다. (《 처 리 기 간새 치 기》참고) 

모든 국부 APIC 시계는 공통된 모선박자신호를 사용하기때문에 서로 동기적 이 다. 즉 
시동하는 CPU 에서 calibrate _ APIC _ clock () 함수로 계산한 값을 체계에 있는 다른 
CPU 에서도 사용할수 있다. 그렇지만 체계는 모든 국부시계새치기가 정확히 같은 시간 
에 발생 하기를 바라지 않는다. 이것은 스핀잠그기를 기 다려야 하기때 문에 상당한 성능저 
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하를 가져올수 있다. 같은 리유로 한 PIT 시계새 치기조종기를 실행하고있을 때 국부시계 
새치기조종기를 실행하면 안된다. 따라서 seUip _ APIC _ timer () 함수는 매 틱크의 간격내 
에서 국부시계새치기를 분할한다. 

그림 8-4 에서 그 실례를 보여준다. 4개의 CPU 가 있는 다중처리기체계에서 PIT 
의 시 계 새치 기 에 의 해 릭 크가 시 작한다. 

PIT 시계새치기가 발생한지 2 ms 후에 CPUO 의 국부 APIC 가 국부시계새치기를 발생 
시키고 다시 2 ms 후에 CPU 1 의 국부 APIC 가 새치기를 발생시키는 식이다. 

CPU 3 의 국부시계새치기가 발생한 때로부터 2 ms 후에 PIT 는 IRQO 으로 또 다 
른 시계새치기를 발생시켜 새로운 틱크가 시작한다. 


PIT 

CPUO 

CPU1 

CPU2 

CPU3 

PIT 

2ms 

2ms 

2ms 

2ms 

2ms 

1 



그림 8-4. 한번의 틱크안에서 국부시계 새치기분할하기 

setup _ APIC _ timer () 함수는 국부 APIC 가 LOCAL _ TIMER_VECTOR (보통 Oxef ) 벡 
토르를 포함하는 시계새치기를 발생시키게 한다. 나가서 init _ IRQ () 함수는 LOCAL_TI 
MER _ VEECTOR 와 저 준위 새 치 기 조종기인 apic _ timer _ interrupt () 함수를 련관시 킨다. 

0 국부시계새 치 기조종기 

apic _ timer _ interrupt () 기호언어 함수는 다음코드와 비슷하다. 
apic _ time 〔 interrupt : 

pushl $ LOCAL _ TIMER _ VECTOR -256 
SAVE_ALL 
movl % esp , %eax 
pushl %eax 

call smp _ apic _ timer_interrupt 
addl $4 ,%esp 
jmp ret _ form_intr 

보다싶 이 저수준조종기 는 다른 저수준새 치 기조종기 와 매 우 비 숫하다. 고수준새 치 기 
조종기인 smp _ apic _ timer _ intermpt () 는 다음단계 를 실 행 한다. 

1. CPU 의 론리번호를 알아낸다. (이것을 n 이라고 가정하자.) 

2. apic _ timer _ irqs 의 n 번째 입구점값을 하나 증가시킨다. ( 《 NMI 감시기검사》참 

고) 
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3. 국부 APIC 로 새치기에 대한 응답 ( acknowledge ) 을 한다. 

4. irq _ enter () 함수를 호출해서 local _ irq _ count 배럴의 n 번째 입구점을 증가시킨다. 

5. smp _ local _ timer _ interrupt () 함수를 호출한다. 

6. irq _ exit () 함수를 호출하여 local _ irq _ count 배 렬의 n 번째 입 구점 을 감소시 킨다. 
smp _ local _ timer _ interrupt () 함수는 CPU 마다 필요한 시간관리작업을 실행한다. 

실지 이 함수는 다음과 같은 단계를 수행한다. 

1. 핵심부방식에 있을 때 시계새치기가 발생하였다면 x 86_ do _ profile () 함수를 호 
출한다. 

2. update _ process _ times 0함수를 호출하여 현재프로쎄스가 얼마나 오래동안 실행 
중인가를 검 사한다. ( ( CPU 의 시 분할》참고) 

4) CPU 의 시분할 

시 계새 치 기는 실행 할수 있는 프로쎄스(즉 TASK _ RUNNTNG 상태 에 있는 프로쎄 
스)는 CPU 시분할(吐 me sharing ) 하는데 필수적이다. 보통 매 프로쎄스에 《 시분할량 
( quantum ) > 이 라는 제 한된 시 간을 부여 하고 프로쎄스가 끝나지 않은 상태 에서 시 분할 
량이 완료되면 scheduleO 함수를 호출해서 새로 실행할 프로쎄스를 선택한다. 

프로쎄스서술자의 counter 마당은 프로쎄스에 남은 CPU 시 간의 틱크수를 나타낸다. 
시 분할량은 항상 틱크의 배수 즉 약 10 ms 의 배수이 다. 릭크가 발생할 때 마다 
update _ process _ times 0함수는 counter 값을 갱신한다. 이 함수는 단일처리기체계에서 
는 PIT 시계새 치 기조종기가 다중처 리기체 계 에서는 국부시계새 치기조종기 가 호출한다. 코 
드는 다음과 같다. 

if ( current -> pid ) { 

—cu r rent -> counter : 
if ( current->counter <= 0) { 
current->counter = 0； 

current -> need_resched = 1； 

} 

} 

이 코드는 먼저 핵심부가 PID 가 0인 프로쎄스 즉 실행중인 CPU 의《 교환 
( swapper ) > 프로쎄스를 실행하고있는가를 확인한다. TASK _ RUNNING 상태에 있는 
다른 프로쎄스가 없을 때 이 프로쎄스를 실행하므로 이 프로쎄스를 시분할하면 안된다. 
( 《 프로쎄 스구별 하기》참고) 

counter 가 0 보다 작아지면 프로쎄스서술자의 need _ reshed 마당을 1로 설정한다. 

이 경우 사용자방식으로 실행을 다시 하기 전에 scheduleO 함수를 호출하여 다른 
TASK _ RUNNING 상태의 프로쎄스가 CPU 에서 실행 을 재 개 할수 있게 한다. 

5) 날자와 시간갱신 
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사용자프로그람은 struct timeval 형 변수 xtime 에서 현재 날자와 시 간을 알아낸다. 
핵심부 또한 색인마디시간정보 ( 《파일서술자와 색인마디》참고)를 갱신할 때를 비롯하 
여 자주 이 변수를 참조한다. 구체적으로 보면 xt 加 ie . tv _ sec 는 1970년 1 월 1 일 
( UTC ) 오전부터 경과한 시간을 초로 환산하여 보관하고 xtime . tv _ usec 는 마지막초부 
터 경과한 바를 보관한다. (따라서 이 값은 0에서 999999 사이에 있다.) 

핵심부를 초기화하는동안 timeJnitO 함수를 호출하여 날자와 시간을 설정한다. 이 
함수는 get _ cmos _ time () 함수를 호출하여 실시간시계 ( RTC ) 에서 시간을 읽은 후 xtime 
을 초기화한다. 

한번 이렇게 하면 핵심부가 더는 RIC 를 필요로 하지 않는다. 대신 매번 틱크가 발 
생할 때마다 실행하는 시간계수새치기에 의존한다. 

6) 체계통계갱신 

핵심부는 시간과 관련한 여러가지 과제중 하나로 다음용도를 위한 자료를 정기적으 
로 수집해 야 한다. 

• 실행중인 프로쎄스의 CPU 자원제한검사 

■ 평 균체 계 부하계 산 

■ 핵심부코드동작분석 

O 현행프로쎄스의 CPU 자원제한검사 

update _ process_times 0 함수는 (단일 처 리 기 체 계 에 서 는 PIT 의 시 계 새 치 기 조종기 ， 
다중처 리기체계 에서는 국부시계 새 치기 조종기 가 이 함수를 호출한다. ) 현재 실행 중에 있 
는 프로쎄 스의 서 술자주소를 얻는다. ( timer , c 참고) 

다음으로 update _ one_process () 를 호출하는데 이 함수는 do _ process_times 0 함 
수를 호출하여 사용자프로그람이 timesO 체계호출을 통해 알아낼수 있는 통계정보를 보 
관하는 몇개의 마당을 갱신한다. 

static void update _ one_process (struct task_struct * p , unsigned long user , 
unsigned long system , int cpu ) 

{ 

do _ process _ times ( p , user , system ); 
do _ it _ virt ( p , user ) : 
do _ it_prof ( p ) : 

} 

이때 사용자방식과 핵심부방식에서 사용한 CPU 시간을 구별한다. 이 함수는 다음 
과 같은 동작을 한다. 

1. current 의 프로쎄스서술자에 있는 utime 마당을 갱신한다. 이 마당은 처리기가 
사용자방식에서 실행중일 때 발생한 틱크의 수를 보관한다. 

2. current 의 프로쎄스서술자에 있는 stime 마당을 갱신한다. 이 마당은 프로쎄스가 


透資邊 @資變©^ 


719 


Linux 행심부해설서 

핵심부방식에서 실행중일 때 발생한 릭크의 수를 보관한다. 

3. CPU 시간제한에 걸리는가를 검사한다. 걸린다면 current 에 SIGXCPU 와 
SIGKILL 신호를 보낸다. 《 프로쎄스자원제한》에서 매 프로쎄스서술자에 있는 
rlim [ RLIMIT _ CPU ]. rlim _ max 마당을 통해 사용제한을 조종하는 방법을 설명하였다. 

프로쎄 스의 자식 프로쎄 스가 사용자방식 과 핵 심 부방식 에 서 사용한 CPU 틱 크의 개 수 
를 계수하기 위해 프로쎄스서술자에는 추가로 cutime 과 cs 吐 me 이라는 두 마당이 있다. 
효률성을 위 해 이 마당은 update _ one_process () 에서 갱신하지 않고 부모프로쎄스가 
자식 프로쎄 스중 하나의 상태 를 물어 볼 때 갱 신한다. (《프로쎄 스끝내 기》참고) 

ᄋ 체계부하파악 

모든 Unix 체계는 체계에서 얼마나 많은 CPU 동작이 이루어지는가를 계속 파악한다. 
이 런 통계정보는 top 을 비롯한 여러 관리프로그람에서 사용한다. 사용자는 uptime 명령을 
내려서 마지막 lmin 과 5 min , 15 min 동안의 《평균부하 (load average )》 통계를 볼수 있 
다. 

단일처리기체계에서는 이 값이 0이면 실행할수 있는 활성화된 프로쎄스가 없다는것 
을 의미하고(교환프로쎄스0을 제외하고) 1이면 한 프로쎄스가 CPU 를 100% 사용하고 
있다는것을，1보다 큰 값이면 여러개의 활성화된 프로쎄스가 CPU 를 공유하고있다는것 
을 의미 한다. ( timer , c 참고) 

update _ times () 가 호출하는 calc _ load 0 함수는 체계 부하에 대한 정보를 수집 한다. 
calc _ load () 함수는 TASK _ RUNNING 이나 TASK _ UNINTERRUPTIBLE 상태에 있 
는 프로쎄스의 개수를 계수해서 이 값을 CPU 사용통계를 갱신하는데 리용한다. 

o 핵심부코드동작분석 

Linux 는 핵심부가 핵심부방식에서 자기의 어느 부분을 실행하는데 시간을 소비하 
는가를 Linux 개 발자가 알아낼수 있도록 최소한의 코드동작분석기 ( profiler ) 를 제 공한 
다. 이 동작분석기는 핵심부의 《활발한 지점 (hot spot )》 즉 핵심부코드에서 가장 자주 
실행되는곳을 찾아낸다. 핵심부의 활발한 지점을 찾아내면 후에 최적화해야 하는 핵심부 
함수가 무엇인가를 알수 있으므로 매우 중요하다. 동작분석기는 매우 간단한 몬데카를로 
알고리듬 (Monte Carlo algorithm ) 에 기초한다. 매번 시계새치기가 발생할 때마다 핵 
심부는 핵심부방식에 있을 때 새치기가 발생하였는가를 검사한다. 그렇다면 탄창에서 새 
치기가 발생하기 전의 eip 등록기값을 읽어서 새치기가 발생하기 전에 핵심부가 무슨 일 
을 하고있었는가를 알아낸다. 오랜 시간동안 실행하면 이 표본은 활발한 지점으로 모아 
진 다. 

x 86_ do _ profile () 함수는 코드동작분석기를 위한 자료를 수집한다. 단일처리기체계 
에 서 는 do _ timer_interrupt 0 함수 ( PIT 의 시 계 새 치 기 조종기 ) , 다중처 리 기 체 계 에 서 는 
smp _ local _ timer _ interrupt () 함수(국부시계새치기조종기)가 이것을 실행한다. 

inline void smp _ local _ timer_interrupt (struct pt_regs * regs ) 
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int cpu = smp _ processor _ id () ； 

profile _ tick ( CPU _ PROFILING , regs ) ； 
if (— per_cpu ( prof _ counter , cpu ) <= 0) { 

/* 

* 이전에 이 시점에서 / proc/profile 파일에 사용자쓰기결 

* 과를 설정하였기때문에 다중처리기는 변화될수 있다. 

* 이 경우에 그에 따르는 APIC timer 조절 이 필요하다. 

* 이 시점에서 새치기들은 이미 마스크해제된다. 

*/ 

per_cpu ( prof _ counter , cpu ) = per _ cpu ( prof _ multiplier , cpu ) ； 
if ( per_cpu ( prof _ counter , cpu ) ! = 

per _ cpu ( prof _ old _ multiplier , cpu )) { 
_ setup _ APIC_LVTT ( 

calibration _ result / 
per_cpu ( prof _ counter , cpu )); 
per_cpu ( prof _ old _ multiplier , cpu ) = 

per_cpu ( prof _ counter , cpu ); 


#ifdef CONFIG_SMP 

update _ process_times ( user_mode ( regs )) ； 

#endif 


/* 

* 경로되돌이값이 《길》면 거기에서 매 부분체계는 

* 적 당히 잠그기 한다. (핵심부잠그기/새 치기잠그기). 

* 

* 《긴 경로〉〉에 의한 프로파일작성을 줄이고싶을 때 기호 

* 언어에서 전반적으로 프로파일을 작성한다. 

* 

* 현재 너무 많다. (performance wise ) , 

* 100 MHz P 5 상에서 초당 10만개 국부새치기를 처리할수 있다. 
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} 

코드동작분석기를 사용하려면 핵심부를 기동할 때 profile = N (여기서 2 N 은 분석할 
코드토막의 크기 를 나타낸다.)문자렬을 파라메터 로 설정 해 야 한다. 수집 한 자료는 
/ proc / profile 함수에서 볼수 있다. 

이 파일에 쓰기를 해서 계수기를 0으로 만들수 있다. 다중처리기체계에서는 이 파 
일에 쓰기를 해서 표본을 추출하는 빈도를 바끌수 있다.(《다중처리기체계의 시간관리구 
조》참고) 그렇지만 보통 핵심부개발자는 / proc / profile 파일을 직접 호출하는 대신 
readprofile 체계 명 령을 사용한다. 

7) NMI 감시기검사 

다중처 리 기 체 계 에서 는 핵 심 부개 발자를 위 해 《 감시 기 체 계 (watchdog system ) 》라 
는 또 다른 기능을 제공한다. 이것은 체계를 멈추게 만드는 핵심부오유를 알아내는데 매 
우 유용하다. 

이런 감시기를 사용하려면 핵심부를 기동할 때 nmi _ watchdog 파라메 터를 설정해야 
한다. ( nmi.c 참고) 

이 감시기는 다중처리기주기판의 하드웨어특징에 기초한다. 여기서는 PIT 의 새치기 
시계를 모든 CPU 의 NMI 새치기로 전달할수 있게 한다. 

cli 기 호언어명 령 어로 NMI 새 치기를 금지할수 없으므로 새 치기를 금지한 경우라도 감 
시기는 교착 ( deadlock ) 상태에 들어갈수 있다. 그 결과 턱크가 발생할 때마다 모든 
CPU 는 무슨 일을 하고있는가에 상관없이 NMI 새치기 조종기를 실행하고 이 조종기는 
do _ nmi () 를 호출한다. 이 함수는 CPU 의 론리 번호 n 을 알아내서 apic _ timer _ irqs 배렬 
의 n 번째 입구점을 검사한다. CPU 가 제대로 동작하고있다면 이 값은 이전 NMI 새치기 
가 발생했을 때 읽은 결과값과 달라야 한다. 

CPU 가 제대로 동작하고있다면 apic _ timerjrqs 배럴의 n 번째 입구점은 국부시계새 
치기조종기에 의해 증가한다. (《 국부시계새 치기조종기》참고) 이 계수기가 그대로라면 
국부시 계새 치기조종기 가 완전히 실행되지 않았다는것을 의미 한다. 

NMI 새 치 기조종기는 CPU 가 멈 춘것을 발견하면 모든 경보신호를 낸다. 체계일지 과 
일에 오유통보문를 기록하고 CPU 등록기와 핵심부탄창의 내용을 복사하고(핵심부편위 
(kernel oops )) 마지막으로 현재프로쎄스를 소멸한다. 이것은 핵심부개발자가 무엇이 
잘못되였는가를 알수 있게 한다. 

8) 프로그람적인 시계 

《시계(社 mer )》 는 주어진 시간간격 이 지난 다음에 함수를 호출하도록 하는 프로그 
람적 인 기법 이다. 《시간넘침 ( time _ out )》 은 시계에 지정한 시간간격 이 지난 순간을 가 
리킨다. 

시계는 핵심부과 프로쎄스가 모두 광범하게 사용한다. 대부분의 장치구동프로그람은 
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례외적인 상황을 알아내기 위해 시계를 리용한다. 례를 들어 유연성디스크구동프로그람 
은 유연성디스크를 한참동안 호출하지 않으면 장치의 전동기를 끄기 위해 시계를 사용하 
고 병 렬 인쇄 기 구동프로그람은 인쇄 기 의 오유상황을 검 출하는데 사용한다. 

프로그람작성자는 특정한 함수를 일정한 시간이 지난 후에 실행하도록 할 때도 시계 
를 많이 사용한다. (《 setitimerO 와 alarmO 체계호출》참고) 

시계를 실현하는것은 상대적으로 쉽다. 매 시계에는 시계가 완료되는 시점을 나타내 
는 마당이 있다. 처음에 현재 jiffies 값에 원하는 릭크의 수를 더해서 이 마당을 계산하 
며 이 마당값은 변경하지 않는다. 

핵심부는 시계를 검사할 때마다 시계의 완료시간마당을 현재 jiffies 값과 비교하며 
jiffies 값이 완료시간보다 크거나 같아지면 시계가 완료된다. 

time_after 와 time_before, time_after_eq, time_before_eq 마크로를 리용하여 이 
런 비 교를 할수 있으며 이 마크로는 jiffies 값에서 발생 할수 있는 자리 넘 침 (overflow) 
에도 주의한다. 

Linux 에 는 《 동적 시 계 (dynamic 仕 mer) 》와 《 간격 시 계 (interval timer) > 라는 
두가지 시계가 있다. 동적시계는 핵심부가 사용하고 사용자방식에 있는 프로쎄스는 간격 
시계를 만들수 있다. 

Linux 시계와 관련해서 주의할 점이 있다. 항상 활성화된 후 오랜시간뒤에 실행해 
도 문제가 없는 지연함수에서 시계함수를 검사하기때문에 핵심부는 시계함수를 완료된 
시 간에 정확히 실행한다는것을 보장하지 않는다. 핵심부는 단지 시계 함수를 정 확한 시 간 
이나 그 시간에서 많으면 몇백 ms 안에 실행한다는것을 보장할뿐이다. 이런 리유로 시계 
는 완료시 간을 정 확하게 지켜 야 하는 실시 간응용프로그람에는 적 당하지 않다. 

° 동적시계 

《동적 시 계 (dynamic timer) 》는 동적 으로 만들고 없앨수 있 다. 현재 사용할수 있는 
동적시계개수에는 제한이 없다. 매 동적시계는 다음 吐 mer_list 구조체에 보관한다. 

struct timer_list { 

struct list-head entry ； 
unsigned long expires : 


spinlock_t lock ； 
unsigned long magic ； 

void (*function) (unsigned long) : 
unsigned long data ； 


struct tvec_t_base_s *base : 
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}； 

func 仕 on 마당은 시계가 완료될 때 실행할 함수의 주소를 보관한다. data 마당은 이 
시 계 함수에 전달할 파라메터 를 지 정 한다. data 마당에 일 반적 인 함수를 하나 정 의 하여 
여 러 장치구동프로그람의 시간넘 침을 처러할수 있다. data 마당에 장치의 ID 나 함수에서 
장치를 구별하는데 사용할수 있는 다른 의미있는 자료를 보관할수 있다. 

expires 마당은 시계가 완료될 시점을 지정한다. 이 시간은 체계를 시작한 때부터 
경과한 릭크의 수로 나타낸다. expires 값이 jiffies 값보다 작거나 같은 모든 시계를 완료 
됐거나 오유가 발생한것으로 간주한다. 

entry 마당은 사슬형2중련결목록에 대한 련결를 보관한다. 동적시계를 리용하는 사 
슬형2중련결목록은 512개가 있어서 매 시계를 expires 마당의 값에 따라 이 목록가운데 
서 하나에 삽입한다. 이 목록을 러용하는 알고리듬은 아래에서 설명한다. 

핵심부는 다음과 같이 동적시계를 만들고 활성화한다. 

1. 새로운 timerjist 객체 (t 라고 하자.)를 만든다. 이것은 여 러가지 방법으로 할수 있 
다. 

• 코드에 정적대역변수를 정의한다. 

- 함수내 에 국부변수를 정의 한다. 

• 이 객체를 포함하는 서술자를 동적으로 할당한다. 

2. init _ timer (& t ) 함수를 호출하여 객체를 초기화한다. 이 함수는 간단히 list 마당을 
NULL 로 설정한다. 

3. function 마당을 시계가 완료될 때 호출할 함수의 주소로 설정한다. 필요하다면 
이 함수에 넘겨줄 파라메터를 data 마당에 지정 한다. 

4. 동적시계를 아직 목록에 삽입하지 않았다면 원하는 값을 expires 마당에 지정한 
다. 이미 목록에 삽입한 경우에는 mod _ timer () 함수를 호출하여 expires 마당을 갱신한 
다. 이 함수는 객체를 정확한 목록으로 옮기는 일도 한다. 

5. 동적시계를 아직 목록에 삽입하지 않았다면 add _ timer (& t ) 함수를 호출해서 t 객 
체를 정확한 목록에 삽입한다. 시계가 완료되면 핵심부는 자동으로 t 객체를 목록에서 제 
거한다. 그러나 때로는 프로쎄스가 delJimerO 나 del _ timer _ sync () 함수를 호출하여 
시계를 목록에서 제거하기도 한다. 따라서 잠든 프로쎄스는 시간넘침이 되기전에 깨여 
날수 있으며 이 경우 프로쎄스는 다시 시계를 제거하려고 할수 있다. 이미 목록에서 제 
거한 시계에 대해 delj : imer () 나 del _ timer_sync () 를 호출하여도 아무런 문제가 발생 
하지 않으므로 시계함수내에서 시계를 제거하는것은 좋은 습관이라고 할수 있다. 

ᄋ 동적시계와 경쟁상태 

동적시계는 비동기적으로 활성화되기때문에 경쟁상태를 일으키기 쉽다. 례를 들어 
어떤 동적시 계함수가 기 억기 에서 제거 할수 있는 자원 (례를 들면 핵 심모둘이 나 파일자료 
구조체)을 리용하여 동작한다고 하자. 이때 시계를 멈추지 않고 자원을 제거하여 시계함 
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수가 활성화될 때에는 해당 자원이 존재하지 않는다면 오유가 발생할수 있다. 따라서 가 
장 중요한 규칙은《자원을 해제하기 전에 시계를 정지》하는것이다. 

del_timer(&t) : 

X_Release_Resources () ; 

그렇지만 다중처리기체계에서는 del_timer() 를 호출할 당시 이미 다른 CPU 에서 
해 당 시계함수를 실행 하고있을수도 있으므로 이 코드는 안전하지 않다. 이 경우 시계 가 
해당 자원을 리용하여 동작하는 도중에 자원을 제거해버릴수도 있다. 이런 경쟁상태를 
막기 위해서 핵심부는 del_timer_sync() 함수를 제공한다. 이 함수는 목록에서 시계를 
제거한 후 다른 CPU 에서 해당 시계함수를 실행중인가를 검사한다. 그렇다면 
del_timer_sync() 는 시계함수를 끝마칠 때까지 기다린다. 

물론 다른 류형의 경쟁상태도 있다. 례를 들어 이미 활성화한 시계의 expiers 마당 
을 정확한 방법은 mod_timer() 를 사용하는것이지만 그렇지 않고 시계를 제거하고 다시 
생성한다면 같은 시계의 expires 마당을 수정하려는 핵심부조종경로가 두개 있는 경우 
서로 혼동할수 있다. 시계함수를 실현할 때에는 社 merlist_lock 스핀잠그기를 사용하여 
SMP 에서도 안전하게 만든다. 핵심부는 동적시계목록을 호출할 때 새치기를 금지한 후 
이 스핀잠그기를 획득한다. 

° 동적 시 계 처 리 

동적시계를 실현하기 위한 적당한 자료구조체를 선택하는것은 쉽지 않다. 모든 시계 
를 한 목록에 모아둔다면 매번 릭크가 발생할 때마다 긴 시계목록을 검색하기 위하여 상 
당한 시간을 소비하여 체계성능을 저하시킬것이다. 그렇다고 목록을 정렬해서 유지하는 
것 역시 삽입과 삭제에 상당한 시간이 필요하므로 그리 효률적이지 못하다. 따라서 
expires 값에 기초하여 릭크의 블로크로 나누고 동적시계가 큰 expires 값의 목록으로부 
터 작은 값의 목록으로 효률적으로 이동하게 하는 자료구조체를 사용하는것이다. 

핵심자료구조체는 struct tvec_t_base_s 형 변수인 base 배럴를 리 용하는데 매 원소 
는 tvl, tv2, tv3, tv4, tv5 구조체로 된 다섯개의 목록그를들을 가리킨다. (그림 8- 
5 참고) 

typedef struct tvec_s { 

struct listJiead vec [TVN_SIZE] : 

} tvec_t : 


typedef struct tvec_root_s { 

struct list Jiead vec [TVR_SIZE] ； 
} tvec_root_t； 
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(0-256) (<2 14 -1) (<2 20 -1) (<2 26 -1) (<2 32 -1) 

동적 시계 목록 

그림 8-5. 동적시계와 련관된 목록의 그룹 

tvl 구조체 는 tvec _ root _ t 형 이 다. 이 구조체 는 list _ head 객 체 256개 를 포함하는 
vec 배렬 즉 동적시계목록으로 이루어진다. 여기에는 틱크가 255번안에 완료되는 모든 
동적 시 계 가 들어있 다. index 로 참조하는 목록에 는 현재릭 크에 서 완료되 는 모든 동적 시 
계가 들어있다. 그 다음 목록에는 다음릭크에 완료되는 모든 동적시계가 들어있고 
( index + k ) 번째 목록에 는 k 번째 릭 크가 발생 할 때 완료되 는 모든 동적 시 계 가 들어있 다. 


struct tvec _ t _ base_s { 
spinlock_t lock ； 
unsigned long timer_jiffies ； 
struct timer_list * running _ timer ； 
tvec _ root_t tvl ; 
tvec_t tv 2； 
tvec_t tv 3； 
tvec_t tv 4； 
tvec_t tv 5； 

} _ cacheline _ aligned _ in_smp ； 

Ty 

pedef struct tvec_t base_s tvec base t ； 


Tp—n 
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index 가 다시 0이 되면 이것은 tvl 에 있는 모든 시계를 조사하였다는것을 의미한다. 이 
경우 tv 2. vec [ tv 2. index ] 가 가리키는 목록을 tvl 로 공급한다. 

tv 2, tv 3, tv 4 구조체는 tvec _ t 형이며, 각각 2 14 -1, 2 20 -1, 2 26 -1릭크안에 완료되 
는 모든 동적시계를 가전다. tvec _ t 구조체는 tvec _ root _ t 구조체와 매우 비슷하다. 이 구 
조체 는 동적 시 계 목록을 가리 키 는 64개 의 지 적 자배 렬 인 vec 성 원변수를 가지 고있 다. 256 X 
64 i_2 릭크마다 1씩 증가한다. (64 로 나눈 나머지값을 보관한다.) 여기서 그는 2와 5사이의 
값으로 tvi 그룹번호를 의미한다. tvl 의 경우처럼 index 가 0으로 되돌아오면 

tvj . vec [ tvj . index ] 가 가리 키는 목록을 tvi ( i 는 2에서 4사이고 그는 i +1 이 다.) 로 공급한다. 

따라서 tv 2 의 첫번째 요소는 tvl 시계 다음 256릭크동안에 완료되는 모든 시계의 
목록을 자진다. 따라서 이 목록에 있는 시계를 tvl 의 전체 배렬로 공급할수 있다. 

tv 2 의 두번째 요소는 그 다음 256릭크동안에 완료되는 모든 시계를 가지는 방식으 
로 구성된다. 비슷하게 tv 3 의 입구점하나로 tv 2 전체 배렬에 공급할수 있다. 

그림 8-5 는 이 자료구조체들이 어떻게 서로 련결되는가를 보여준다. 

_ run _ timers () 함수는 다음 C 코드와 비슷하다. 
struct timer_list * timer ； 

spin _ lock _ irq (& base -> lock ); 

while ( time _ after_eq ( jiffies , base -> timer _ jiffies )) { 

struct list_head work_list = LIST _ HEAD_INIT ( work _ list ) ； 

struct list_head *head = 技 work _ list ; 

int index = base- 〉 timer_jiffies 技 TVR 一 MASK; 

if (! index 技冬 

(! cascade (base, 技 base- 〉 tv2, INDEX (0))) && 

(! cascade (base, 技 base- 〉 tv3, INDEX (1))) && 

! cascade ( base , 技 base -> tv 4, INDEX (2))) 
cascade ( base , & base -> tv 5, INDEX (3)) ； 

++ base -〉 timer_jiffies ； 

list_splice_init(base->tvl. vec + index, 技 work_list); 

repeat ： 

if (! list_empty ( head )) { 

void (* fn ) (unsigned long ) ； 
unsigned long data ； 

timer = list_entry ( head -> next , struct timer _ list , entry ) ； 
fn = timer -〉; f imc 仕 on ; 
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data = timer -> data ； 


list_del (& timer -> entry ) : 
set _ running _ timer ( base , timer ); 
smp_wmb () : 
timer->base = NULL ； 
spin _ unlock_irq (& base -> lock ) : 
fn ( data ); 

spin _ lock_irq (& base -> lock ) : 
goto repeat ； 

} 

} 

set _ running _ timer ( base , NULL ) ； 
spin _ unlock_irq (& base -> lock ) : 

맨 바깥 while 순환은 timerJiffies 가 jiffies 값보다 커지면 끝난다. 보통 jiffies 값과 
timer_jiffies 값은 일치하므로 이 while 순환을 한번만 실행 하는 경우가 많다. 일반적으 
로 이 순환을 련속해서 jiffies - 仕 mer _ jiffles+l 번 실행한다. _ run _ timers () 를 실행하는 
도중에 시계새치기가 발생하면 jiffies 변수는 PIT 의 새치기조종기에 의해 비동기적으로 
증가하므로 ([PIT 의 새치기봉사루린]참고) 이번 릭크에서 완료되는 동적시계도 처리한다. 

맨 바깥순환을 한번 실행하는 동안 tvl . vec [ index ] 목록에 있는 동적시계함수를 실 
행한다. 순환에서는 동적시계함수를 실행하기 전에 list _ del () 함수를 호출하여 동적시계 
를 목록에서 삭제한다. tvl.index 가 비워지면 tvl 에 있는 모든 목록을 검사한것이다. 
이 경우 tvl 구조체를 다시 채워야 하는데 이것은 바로 cascade () 함수가 하는 일이다. 
이 함수는 다음256릭크동안에 완료되는 tv 2. vec [ index ] 에 있는 동적시계를 tvl.vec 
로 옳긴다. tv 2 가 비워지면 목록의 tv 2 배럴을 tv 3. vec [ index ] 에 있는 요소로 채운다. 
이 함수에서 맨 바깥순환을 시작하기 전에 새치기를 금지하고 base->lock 스핀잠그기를 
획득한다. 

매 동적시계함수를 호출하기 전부터 이 함수가 끝날 때까지 새치기를 허용하고 스핀 
잠그기 를 해 제 한다. 이 렇 게 하는것 은 다른 핵 심 부조종경 토가 동시 에 동적 시 계 자료구조체 
를 호출하여 자료가 파괴되는것을 막기 위해서이다. 

이 알고리듬은 매우 복잡하지만 높은 성능을 보장한다. 그것은 이 함수가 시계새치 
기 256번중 255번 (99. 6%)은 완료된 시계가 있는 경우에 이 시계함수를 실행하면 되기 
때문이다. 그리고 tvl.vec 를 정기적으로 채울 때도 64번중에서 63번은 
tv 2. vec [ index ] 가 가리키는 목록을 tvl.vec 의 목록 256개로 나누어넣으면 된다. 
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tv 2. vec 배럴은 0.02%의 빈도로(즉 163 s 에 한번씩) 채우면 된다. 비숫하게 tv 3 은 2 h 
54 min 에 한번씩 , tv 4 는 7일 18 h 에 한번씩 채우고 tv 5 는 채울 필요가 없다. 

° 동적시계응용 

핵심부에서 앞에서 나오는 모든 동작을 실제로 어떻게 활용하는가를 보기 위해 《프 
로쎄스시 간넘 침 (process 仕 me - out ) 》을 만들고 사용하는 실례 를 보자. 

핵심부가 현재프로쎄스를 2 s 동안 멈추고 싶다고 하자. 다음코드를 리용하여 할수 
있 다. 

timeout = 2 * Hz ; 

set _ current_state ( TASK _ INTERRUPTIBLE ) : /* 또는 TASK_UNINTERUP 
TIBLE */ 

remaining = schedulejimeout ( timeout ); 

핵심부는 동적시계 를 리용하여 프로쎄스시 간넘 침을 실현한다. 이것은 

schedulejimeout 0함수에서 볼수 있는데 이 함수는 다음코드와 같다. 
struct timer_list timer ； 
expire = timeout + jiffies : 
init_timer (技 timer ) : 
timer , expires = expire ； 
timer , date = (unsigned long ) current ； 
timer , function = process _ timeout : 
add_timer (& timer ) : 

schedule ()； /* 시계가 완료될 때까지 프로쎄스를 보류한다 */ 

del _ timer_sync (沒 timer ) : 

timeout = expire - jiffies : 

return timeout < 0 ? 0 ： timeout ; 

scheduleO 함수를 호출하면 실행할 다른 프로쎄 스를 선택 한다. 이전프로쎄 스가 실 
행을 재시작하면 우의 함수는 동적시계를 삭제한다. 마지막 코드에서 시간넘침이 일어나 
면 0, 다른 리유로 프로쎄스가 깨여난 경우에는 시간넘침이 완료될 때까지 남은 틱크의 
수를 되돌린다. 

시간넘침이 일어나면 핵심부는 다음함수를 실행한다. 

static void processjimeout (unsigned long — data ) 

{ 

wake _ up _ process (( task_t *) — data ); 

} 

_ run_timers () 함수는 timer 객체의 data 마당에 보관한 프로쎄스서술자지 적자를 파 
라메터로 하여 process _ timeout () 함수를 호출한다. 이렇게 하면 정지되 여있던 프로쎄 
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스가 깨 여 난다. 

9) 시 간동기 측정 과 관련된 체 계호출 

사용자방식프로쎄스가 날자와 시간을 알아내거나 변경하고 시계를 만들수 있게 하는 
여러가지 체계호출이 있다. 이러한 체계호출을 간단히 보고 핵심부가 이것을 어떻게 처 
리하는가를 설 명한다. 

o time () , gettimeofdayO 체계 호출 

사용자방식에 있는 프로쎄스는 여러가지 체계호출을 리용하여 현재 날자와 시간을 
알아낼수 있다. 

• time 0 체 계 호출 

1970년 1월 1일 ( UTC ) 오후부터 시 작하여 경 과한 시 간을 s 단위 로 돌려 준다. 

• gettimeofday 0 

1970년 1월 1일 ( UTC ) 자정부터 시 작하여 지금까지 경과한 s 단위시간을 timeval 
이 라는 자료구조에 담아 반환한다. (두번째 파라메터 인 timezone 자료구조는 현재 사용 
하지 않는다.) 

처음 두 체계호출을 get 社 meofdayO 로 대체할수 있지만 이전판본과 호환성을 유지 
하기 위 해 Linux 에 계 속 들어있 다. 이 두 함수는 더 는 언급하지 않는다. 

gettimeofdayO 체계 호출은 sys _ gettimeofday () 함수로 구현한다. 이 함수는 현재 
날자와 시간을 계산하기 위 해 다음과 같이 동작하는 do _ gettimeofday () 를 호출한다. 

1. 새치기를 금지하고 xtime_lock 읽기/쓰기스핀잠그기를 읽기용으로 획득한다. 

2. do_gettimeoffset 변수가 가리 키 는 함수를 호출하여 마지 막터부터 경 과한 ᆻ s 를 
알아낸다. 

usee = do _ gettimeoffset () : 

CPU 에 시간정보계수기가 있으면 do _ fast _ gettimeo 打 set () 함수를 실행한다. 이 함수 
는 rdtsc 기호언어명령어를 사용하여 TSC 등록기를 읽은 후 여기서 last _ tsc _ low 값을 빼 
서 마지막시계새치기를 처리한 후부터 경과한 CPU 주기의 수를 계산한다. 이 수자를 ms 
로 변환한 후 시계새치기조종기를 실행하기까지 걸린 지연시간(이 값은 앞서 《 PIT 의 새 
치기봉사루린》에서 언급한 delay _ last _ interrupt 변수에 들어있다.)을 더한다. 

CPU 에 TSC 등록기가 없으면 do _ gettimeoffset 은 do _ slow _ gettimeo 打 set () 함수 
를 가리킨다. 이 함수는 82 M 소편장치의 내부발진기상태를 읽어서 마지막시계새치기가 
발생한 때부터 경과한 시 간을 계산한다. 이 값과 jiffies 의 내 용으로 마지막 s 이후에 경과 
한 다티를 알아낼수 있다. 

3. 하반부를 아직 실행하지 않은 모든 시계새치기를 고려하여 ms 를 증가시킨다. 
usee += (jiffies - walljiffies ) * (1000000/ Hz ) ;■ 

4. xtime 의 내용을 체계 호출을 실행 할 때 전달한 파라메 터 tv 로 지정 한 사용자공간 
의 완충기로 복사한다. 
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ty -> tv_sec = xtime -> tv _ sec ； 

tv -> tv_use = x 仕 me _> tv _ usec + usec ; 

5. xtime _ lock 스핀잠그기를 해제하고 새치기를 다시 허용한다. 

6. m s 마당에 자리 넘 침 ( overflow ) 이 있는지 검사하여 필요하면 m s 와 s 마 

당을 조정한다. 

while ( tv -> tv_usec >= 1000000) { 
tv -> tv_usec -= 1000000; 

tv -> tv _ sec ++ : 

} 

뿌리 권한이 있는 사용자방식 프로쎄스는 낡은 stimeO 체계 호출이 나 
set 吐 meofdayO 체계 호출을 리 용하여 현재 날자와 시간을 바물수 있 다. 
sys_settimeof day () 함수는 do_get 仕 meofday 0 와 반대로 동작하는 

do_settimeofday 0 를 호출한다. 

두 체계호출모두 RTC 의 등록기를 변경하지 않고 xtime 값만 바꾸는데 주의하 
시오. 체계를 완료하면 새로 지정한 값으르 읽기때문에 그렇지 않으려면 clock 프로 
그람을 실행하여 RTC 값을 바꾸어야 한다. 

o adjtimexO 체계호출 

시간이 흐르면 결국 모든 체계가 정확한 시간에서 벗어나지만 그렇다고 갑자기 시간 
을 바꾸는것은 관리측면에서 귀찮고도 매우 위험한 행동이다. 례를 들어 make 프로그람 
을 사용하여 파일에 적힌 시간정보를 바탕으로 오래된 오브젝트과일을 다시 콤파일하여 
큰 프로그람을 건립 ( build ) 하는 경우를 생각해보자. 이때 체계시간을 크게 바꾸면 
make 프로그람을 혼동시켜 잘못 건립할수도 있다. 콤퓨터망에서 분산파일체계를 구축할 
때 시간을 맞추는것역시 중요하다. 여기서는 파일에 호출할 때 해당 과일의 색인마디에 
있는 시간정보값이 일치하도록 서로 련결된 PC 의 시계를 맞추는것이 현명하다. 

따라서 각 릭크가 발생할 때마다 점 차적으로 시간을 변경하는 원칙을 사용하는 망시 
간통신규약 ( NTP : Network Time Protocol ) 같은 시 간동기 화통신규약을 실행 하도록 
체계를 설정하는 경우가 종종 있다. 이 유털리터는 Linux 에 있는 adjtimexO 체계호출 
을 사용한다. 

이 체계호출은 여러 Unix 변종에 존재하지만 프로그람에서 호환성을 고려한다면 이 
것 을 사용하면 안된 다. 이 체 계 호출은 timex 구조체 에 대 한 지 적 자를 파라메터 로 받아서 
timex 에 있는 여 러 마당의 값으로 핵 심부파라메터 를 갱 신하며 똑같은 구조체 에 현재 핵 
심부의 값을 넣어 반환한다. 이 핵심부값은 update _ wall _ time _ one _ tick () 함수에서 각 
틱크마다 xtime . tv _ usec 에 더하는 ms 수를 미세하게 조정하는데 사용한다. 

。 seti 仕 mer () 와 alarm () 체계호출 

Linux 는 사용자방식프로쎄스가 간격시계 (interval timer ) 라는 특별한 시계를 사용 
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할수 있게 한다. 이 시계는 주기적으로 프로쎄스에 Unix 신호 (3 장 3절 참고)를 보내게 
한다. 지정한 시간이 지나면 한번만 신호를 보내도록 간격시계를 설정할수도 있다. 따라 
서 각 간격시계는 다음과 같은 성질로 이루어진다. 

■ 신호를 보낼 빈도. 이 값이 빈값 ( null ) 이면 신호가 한번만 발생한다. 

• 다음신호가 발생 할 때 까지 남은 시 간 

앞서 언급한 정확성문제는 이 시계에도 적용된다. 이 시계는 지정한 시간이 지난 후 
에 실행되는것은 확실하지만 언제 배달될것인지 정확하게 예측하는것은 불가능하다. 

POSIX setitimerO 체계 호출을 사용하여 간격시 계를 동작시 킨다. 첫 번째 파라메 터 
는 다음방책중 어떤것을 채택할것 인지 지정한다. 

ITIMER_REAL 

실제로 경과한 시간. 프로쎄스는 SIGALRM 신호를 받는다. 

ITIMER_VIRTUAL 

프로쎄스가 사용자방식에서 보낸 시간. 프로쎄스는 SIGVTALRM 신호를 받는다. 
ITIMER_PROF 

프로쎄 스가 사용자방식 과 핵 심 부방식 모두에 서 보낸 시 간. 프로쎄 스는 SIGPROF 신호를 
받는다. 

각 방책에 따른 간격시계를 구현할 목적으로 프로쎄스서술자는 다음마당 세쌍을 포 
함한다. 

• it _ real_incr 과 it _ real_value 

■ it _ virt_incr 과 it _ virt_value 

■ it _ prof_incr 과 it _ prof_value 

각쌍의 첫번째 마당은 두 신호사이의 간격을 릭크수로 보관하고 두번째 마당은 시계 
의 현재값을 저정한다. ITIMER_REAL 간격시계는 프로쎄스가 CPU 에서 실행중이지 
않더라도 신호를 보내야 하므로 동적시계를 리용하여 구현한다. 따라서 각 프로쎄스서술 
자에는 real_timer 라는 동적시계객체가 있다. 

setitimerO 체계 호출은 real_timer 마당을 초기화한 후 add _ timer () 를 호출해서 동 
적시계를 적절한 목록에 추가한다. 시계가 완료되면 핵심부는 it _ real _ fn () 시계함수를 
실행한다. 이 함수는 프로쎄스에 SIGALRM 신호를 보낸다. it _ real_incr 이 0이 아니 
면 expires 마당을 다시 설정한 후 시계를 다시 활성화한다. 

ITIMER_VIRTUAL 과 ITIMER_PROF 간격 시계는 프로쎄스가 실행 중인 동안에만 
갱신되므로 동적시계를 사용할 필요가 없다. PIT 의 시계새치기조종기나(단일처리기) 국 
부시 계 새 치 기 조종기 에서 ( SMP ) 호출하는 update _ one_process 0 함수는 do _ it _ virt () 와 
do _ it _ prof () 함수를 호출한다. 따라서 각 릭크가 발생할 때까지 두 간격시계를 갱신하 
며 시계가 완료되면 현재프로쎄스에 해당 신호를 보낸다. 

alarm 0 체계 호출을 지정 한 시간간격이 지나면 이것을 호출한 프로쎄스에 
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SLGALRM 신호를 보낸다. 이것은 ITIMER_REAL 방책을 지정하여 setitimerO 를 호 
출한것과 매우 비숫하며 마찬가지로 프로쎄스서술자에 있는 real_timer 동적시계를 사용 
한다. 따라서 alarmO 과 ITIMER_REAL 을 지정한 setitimerO 를 동시에 사용할수 없다. 


제 3절. 체계호출 

조작체계는 사용자방식에 있는 프로쎄스가 CPU 와 디스크, 인쇄기 등의 하드웨어장 
치와 호상작용할수 있도록 일련의 대면부를 제공한다. 이렇게 응용프로그람과 하드웨어 
사이에 별도의 계층을 두면 여러가지 우점 이 있다. 

먼저 프로그람작성이 쉬워지고 사용자가 하드웨어장치의 특성을 다루어야 하는 저수 
준프로그람을 배울 필요가 없다. 다음으로 핵심부는 사용자의 요구를 실제로 처리하기 
전에 대면부수준에서 요구한것이 옳바른지 검사할수 있어서 체계안전성이 높아진다. 

끝으로 그러면서도 중요한 점으로 이러한 대면부는 프로그람을 똑같은 대면부집합을 
제공하는 어떤 핵심부에서나 름파일하고 제대로 실행할수 있게 하므로 프로그람호환성이 
좋아진다. Unix 체계는 핵심부에 요구를 하는《체계호출 (system call )》 이라는 방법으 
로 사용자방식프로쎄 스와 하드웨 어장치사이 대 부분의 대 면부를 구현 한다. 

이 절에서는 Linux 에서 사용자방식프로그람이 핵심부에 요구를 하는 체계호출을 
어떻게 구현하는지 자세히 살펴보자. 

1. POSIX API 와 체 계호출 

먼저 응용프로그람프로그람대 면부 ( API : application programming interface ) 와 
체 계 호출의 차이를 살펴보자. 

API 는 주어 진 봉사를 어 떻게 받는지 지정하는 함수정의 이고 체 계 호출은 쏘프트웨 어 
새치기를 통해 핵심부에 하는 직접적인 요구이다. Unix 체계에는 프로그람작성자에게 
API 를 제공하는 함수를 포함한 다양한 서고가 있다. libc 표준 C 서 고에서 정의하는 API 
중 일부는 체 계 호출을 진행 하는 목적 으로만 사용하는《 래 퍼 루린 (wrapper routine ) ) 
을 사용한다. 보통 각 체계호출마다 대응하는 래퍼루린이 하나씩 있으며 래퍼루린은 응 
용프로그람에서 사용할 API 를 정의 한다. 그러 나 그 반대 는 성 립 하지 않는다. API 는 특 
정체계호출에 대응할 필요는 없다. 례를 들어 open 체계호출을 실행할수 있도록 
include / asm - i 386/ unistd . h 파일에서 openO 이라는 래퍼루린을 제공하고 사용자방식 
프로그람은 이 openO 을 API 처럼 직접 호출하거나 fopenO 같은 API 를 사용하여 간접 
호출한다. 

무엇보다도 API 는 사용자방식내에서 봉사를 직접 제공할수 있다.(수학함수처럼 추 
상적인것은 체계호출을 사용할 리유가 없다.) 다음으로 API 함수 하나는 여러 체계호출 
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을 사용할수 있다. 더우기 여러 API 함수가 똑같은 체계호출을 사용하고 여기에 기능을 
추가로 덧붙일수도 있다. 례를 들어 Linux 의 mallocO 과 calloc (), free () POSIX 
API 를 libc 서고에서 구현하는데 이 서고에 있는 코드에서 기억기할당과 해제를 직접 관 
리하며 brk () 체계호출을 사용하여 프로쎄스동적기억의 크기를 늘이거나 줄인다. (3 장의 
《 동적 기 억 관리》참고) 

POSIX 표준은 체 계 호출이 아닌 API 를 규정 한다. 응용프로그람에 정 확한 API 집 합 
을 제공하기만 하면 해당 함수를 구현하는 방식에 상관없이 POSIX 와 호환하는 체계라 
고 인정할수 있다. 실제로 Unix 체계는 아니지만 사용자방식서고에서 전통 Unix 봉사를 
제공하기때문에 POSIX 호환인정을 받은 체계도 여러개 있다. 

프로그람작성 자관점 에서 보면 API 와 체계 호출을 구별하는것은 무의미 하다. 이것들 
에게는 단지 함수명과 파라메터 형，결과값의 의미만이 중요할뿐이 다. 그러 나 핵 심부설 
계자의 관점에서 보면 체계호출은 핵심부에 속하지만 사용자방식서고는 그렇지 않으므로 
이러한 구별은 중요하다. 

대부분의 래퍼루린은 옹근수값을 되돌린다. 이 값의 의미는 해당 체계호출마다 다르 
다. 보통은 결과값이 1인 경우 핵심부가 프로쎄스의 요구를 처리할수 없음을 나타낸다. 

체 계 호출조종기 는 잘못된 과라메 터 나 자원부족，하드웨 어 문제 등의 리 유로 실패 할수 
있 다. 구체 적 인 오유코드는 Ubc 서 고에서 정 의 하는 errno 변수에 들어있 다. 각 오유코 
드를 정의 옹근수값을 마크로상수로 정의한다. POSIX 표준에서는 몇가지 오유코드의 마 
크로이름을 규정 한다. 80 x 86 체계 용 Linux 에서는 이 마크로를 include / asm - 
i 386/ errno . h 머리 부파일에서 정의 한다. Unix 체계 사이에서 C 프로그람의 호환성을 위 
해 표준 C 서고머리 부과일인 / usr / include / errno . h 는 include / asm - i 386/ errOT.h 머 
리부파일을 포함한다. 

다른 체계에서도 머리부파일을 모아둔 자신만의 특별한 보조등록부가 있다. 

2. 체계호출조종기와 봉사루린 

사용자방식프로쎄 스가 체 계호출을 실 행 하면 CPU 는 핵 심 부방식 으로 전환해 서 핵 심 
부함수를 실행하기 시작한다. Linux 에서는 int $0 x 80 기호언어명령어를 실행하여 체계 
호출을 실행해야 한다. 이 명령어는 128번 벡토르를 가진 프로그람에 의한 례외를 발생 
시킨다. (5 장 1절의 《 새치기와 함정, 체계문》과 《새치기와 례외의 하드웨어적인 처 
리》참고) 

핵심부는 서로 다른 많은 체계호출을 구현하므로 프로쎄스는 자신이 원하는 체계호 
출을 구별하는《체계호출번호 (system call number ) 》를 파라메터로 전달해 야 한다. 

이 런 목적으로 eax 등록기를 사용한다. 후에 《 파라메터전달》에서 보지만 보통 체 
계 호출을 진행할 때 에는 추가로 파라메 터를 전달한다. 

모든 체계호출은 옹근수값을 반환한다. 체계호출의 결과값과 래퍼루린의 결과값에 
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대 한 관계 는 서 로 다르다. 핵 심부에서 는 정 수로서 0은 체 계호출이 성 공적 으로 마쳤음을 
의미하고 부수는 오유를 의미한다. 오유가 발생한 경우 결과 값은 errno 변수를 통해 응 
용프로그람에 반환해 야 하는 오유코드를 부수로 만든것 이 다. 

핵 심부는 errno 변수를 설정 하거 나 이 변수를 사용하지 않는다. 대 신 래퍼루린이 체 
계호출에서 돌아온 후 이 변수를 설정하는 일을 한다. 

체계 호출조종기는 다른 례외조종기와 구조가 비슷하며 다음과 같은 작업을 수행한다. 

• 대부분의 등록기내용을 핵심부방식탄창에 보관한다. (이 작업은 모든 체계호출에 
서 공통적이며 기호언어로 작성되여있다.) 

■ 《체계호출봉사루린 (system call service routine )》 이라는 C 함수를 호출하여 
체계호출을 처리한다. 

■ ret _ from _ sys _ call () 함수(역 시 기 호언어 로 작성 되 여 있 다. )를 리 용하여 조종기 에 
서 빠져 나온다. 

xyz 라는 체계호출과 관련한 봉사루린의 이름은 일부례외는 있지만 보통 
sys _ xyz () 이 다. 

그림 8-6 에 체계호출을 진행하는 응용프로그람과 해당하는 래퍼루린, 체계호출조종 
기, 체계호출봉사루린사이의 관계를 도식화하였다. 화살표는 함수사이의 실행흐름을 나 
타낸다. 


사용자방식 



응용프로그람에서 Libc 표준서 고에 

체계호출 있는 래퍼루턴 


핵심부방식 



체 계 호줄 체 계 호출 

운전기 봉사루턴 


그림 8-6. 체계호출진행과정 

핵심부는 체계호출번호와 해 당 체계호출봉사루린을 서로 련관시키기 위해 《 체계호 
출분배 표 (system call dispatch table ) 》를 사용한다. 이 표는 sys _ call _ table 배 럴 에 
들어있고 입구점 NR _ syscalls (보통 256) 개를 포함한다. 


透資邊 @資變©^ 


735 






















Linux 행심부해설서 


n 번째 입구점은 체계호출번호 n 에 해 당하는 체계 호출봉사루린주소를 보관한다. 

NR_syscalls 마크로는 구현가능한 체계호출의 최대수를 지정하는 정적인 제한으로 
실제 구현하고있는 체계호출수를 의미하지 않는다. 실제로 분배표에 있는 입구점중 어떤 
것은《 구현 하지 않은 ( nonimplemented ) 》체 계 호출의 봉사루린 인 sys _ ni_syscall () 
함수의 주소를 보관한다. 이 함수는 단지 오유코드 -ENOSYS 를 반환한다. 

3. 체 계호출초기 화 

핵심부를 초기화하는 과정에서 호출하는 trap _ init () 함수는 128번(즉 0 x 80) 벡토르 
에 해당하는《 새치기서술자표 ( IDT : Interupt Descriptor Table ) > 입구점을 다음과 
같이 설정한다. 

set _ system _ gate (0 x 80, 沒 system _ call ) : 

이것 은 문서 술자 (gate descriptor ) 의 마당을 다음값으로 지 정 한다. (5 장의 《 새 치 기 
와 함정 , 체계문》참고) 

토막선택 기 (Segment Selector ) 

핵 심 부코드토막의 토막선택 기 인 _ KERNEL_CS 

편위 ( Offset ) 

system _ call () 례외조종기에 대한 지적자 

종류 ( Type ) 

15로 설정한다. 이것은 례외종류가 함정 ( trap ) 이고 해 당 조종기는 마스크가능한 새 
치기를 금지하지 않음을 나타낸다. 

서술자특권수준 ( DPL : Descriptor Privilege Level ) 

3으로 설정한다. 이것은 사용자방식에 있는 프로쎄스가 례외조종기를 호출할수 있 
게 한다. (5 장의 《새 치기와 례외의 하드웨 어적 인 처 리》참고) 


4. system _ call () 함수 

system _ call () 체 계 호출조종기 를 구현하는 함수이 다. 이 함수는 체 계 호출번호와 함 
께 례외조종기가 사용할수 있도록 조종장치가 자동으로 보관한 (5 장의 《새치기와 례외 
의 하드웨 어 적 인 처 리》참고) eflags 와 cs , eip , ss , esp 등록기 를 제 외 한 모든 CPU 
등록기를 탄창에 보관한다. 5장에 있는 《새치기조종기를 위한 등록기보관》에서 설명 
한 SAVE _ ALL 마크로는 ds 와 es 를 각각 핵심부자료토막의 토막선택기로 설정한다. 
system _ call ： 

pushl %eax 
SAVE_ALL 

movl $0 xffffe 000, %ebx /* or OxfffffOOO for 4 -kB stacks */ 
andl % esp , %ebx 
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이 함수는 ebx 등록기에 current 프로쎄스서술자를 보관한다. 이것은 핵심부탄창 
지적자를 8 kB 의 배수가 되도록 아래자리비트를 지워서 수행한다. (3 장의 《프로쎄스구별 
하기》참고) 

다음으로 system _ call () 함수는 current 의 ptrace 마당에 PT _ TRACESYS 기발이 
들어있는지 즉 오유수정기 가 프로그람이 체 계호출을 실 행하는것 을 추적 하고있는지 검 사 
한다. 이런 경우 system _ call () 은 syseall _ trace () 함수를 체계호출봉사루린을 실행하기 
직전에 한번, 직후에 한번, 총 두번을 호출한다. 이 함수는 current 를 중단해서 오유수 
정을 하는 프로쎄스가 체계호출에 대한 정보를 수집할수 있게 한다. 

다음으로 사용자방식프로쎄스가 전달한 체 계호출번호가 옳바른지 검사한다. 이 번호 
가 NR _ syscalls 보다 크거 나 같은면 체 계 호출조종기 를 완료한다. 
cmpl $( NR _ syscalls ), %eax 
jb nobadsys 

movl $(- ENOSYS ), 24(% esp ) 
jmp resume_userspace 
nobadsys : 

체 계 호출번호가 잘못된것 이 면 eax 를 보관했 던 탄창위 치(현재 탄창꼭대 기 부터 24번째 
편위)에 ENOSYS 값을 설정한다. 그리고 나서 resume _ userspace () 로 이행한다. 이렇 
게 해서 프로쎄스가 사용자방식에서 실행을 재개하면 eax 에 보관한 부수결과값을 알게 
된 다. 

마지 막으로 eax 에 들어있는 체 계 호출번호와 관련된 특정 봉사루린을 호출한다. 
call * sys _ call_table (0 , % eax , 4) 

분배표의 각 입구점은 4 B 이므로 핵심부는 체계호출번호에 4를 곱한 후 여기에 
sys _ call_table 분배표의 시작주소를 더한 후 표의 이 위치에 있는 봉사루린에 대한 지 
적자를 얻어와서 호출할 봉사루린의 주소를 알수 있다. 봉사루린이 끝나면 

system _ call () 은 eax 에서 결과값을 얻어서 탄창에서 사용자방식의 eax 등록기가 보관했 
던곳에 기록한다. 다음으로 체계호출조종기를 마치는 ret _ from _ sys _ call () 로 이행한 
다. ( 5장의 《 ret _ from _ sys_cal 1 0 함수》참고) 
movl % eax , 24(% esp ) 
jmp ret _ from _ sys_cal 1 

사용자방식에서 실행을 재개한 프로쎄스는 eax 등록기에서 체계호출의 결과값을 알 
수 있다. 

5. 파라메터 전달 

보통 함수와 마찬가지 로 체 계 호출도 종종 여 러 입 출력 파라메터 를 받는다. 이 파라메 
터는 실제값(수자)일수도 있고 사용자방식프로쎄스의 주소공간에 있는 변수, 심지어 사 
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용자방식내에 있는 함수를 가리키는 지적자를 담은 자료구조의 주소일수도 있다. 

system _ call () 함수는 Linux 에 있는 모든 체계호출의 공통적인 진입점이므로 체계 
호출은 적 어도 eax 등록기로 전달하는 체 계호출번호라는 파라메터 하나를 받는다. 례를 
들어 응용프로그람이 래퍼함수 forkO 를 호출하면 int $0 x 80 기호언어명령어를 실행하 
기 전에 eax 등록기 를 2(즉 _ NR _ fork ) 로 설정 한다. 등록기 는 libe 서 고에 들어있는 래 
퍼루린에서 설정하므로 프로그람작성자는 보통 체계호출번호에 신경쓸 필요가 없다. 

forkO 체 계 호출은 다른 파라메터 를 필요로 하지 않는다. 그러 나 많은 체 계 호출이 
파라메터 를 추가로 받으며 응용프로그람에서 직접 전달해 야 한다. 례를 들어 mmapO 체 
계 호출은(체 계 호출번호 외 에 도) 과라메터 를 6개 받는다. 일 반적 인 C 함수에 서 는 파라메 
터를 현재 프로그람탄창에 기록하여 (사용자방식 탄창이 든 핵심부방식 탄창이든) 전달한다. 
체 계 호출은 사용자방식 에 서 핵 심 부방식 으로 넘 어 가는 특별한 함수이기때 문에 사용자방식 
탄창은 물론 핵심부방식탄창도 사용할수 없다. 대신 int $0 x 80 기호언어명령어를 실행하 
기 전에 체 계 호출파라메터 를 CPU 등록기 에 보관한다. 체 계 호출봉사루린은 일반 C 함수므 
로 핵 심 부는 이 함수를 호출하기 전에 CPU 등록기 에 보관한 파라메 터 를 핵 심 부방식탄창 
으로 복사한다. 

왜 핵심부는 파라메터를 사용자방식탄창에서 핵심부방식탄창으로 바로 복사하지 않 
는가? 무엇보다도 동시 에 두 탄창을 가지 고 작업 하는것은 복잡하다. 다음으로 등록기를 
사용하면 체 계호출조종기구조는 다른 례 외조종기 와 비 슷해 진 다. 

그러 나 파라메터 를 등록기 로 전달하려 면 다음 두 조건을 만족해 야 한다. 

■ 각 파라메터 는 등록기 크기 인 32 bit 를 넘 을수 없 다. (이 내 용은 64 bit 방식 에 는 해 당 
하지 않는다.) 

• Intel 펜터움처 리기의 등록기수는 매우 제 한되여 있으므로 파라메 터의 개수는 6개 
를 ( eax 등록기로 전달하는 체계호출번호를 포함하여) 넘을수 없다. 

첫번째 조건은 항상 참이다. POSIX 표준에 따르면 32 bit 등록기에 보관할수 없는 큰 
파라메터 는 반드시 지 적 자로 전달해 야 하기 때 문이 다. 대 표적 인 례 로 64 bit 구조체 2개 를 
받는 settimeofdayO 체계 호출이 있다. 그런데 두번째 조건과 관련하여 6개가 넘는 변수 
를 받는 체 계 호출도 있 다. 이 경 우 등록기 하나를 사용하여 파라메터 값을 보관하는 프로 
쎄 스주소공간내 의 기 억 기 령 역 을 가리 키 도록 한다 . 

몰론 프로그람작성자는 이러한 일에 신경쓸 필요가 없다. 래퍼루린을 호출하면 다른 
C 함수를 호출하는것과 마차가지로 파라메터를 자동적으로 탄창에 보관한다. 래퍼루린은 
핵 심부에 파라메터 를 전달하는 옳바른 방법 을 알고있 다. 체 계 호출파라메터 를 보관하는 
등록기 6개는 순서대로 eax (체계호출번호를 보관한다.), ebx , ecx , edx , esi , edi 이다. 
앞서 살펴본것처럼 system _ call () 은 SAVE _ ALL 마크로를 사용하여 이 등록기값을 핵 
심부방식탄창에 보관한다. 따라서 체계호출봉사루린이 실행되여 탄창을 보면 먼저 
system _ call () 의 되돌이주소가 있고 다음에 ebx (체계 호출의 첫번째 파라메터), 그 뒤 
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로 ecx 등이 있음을 보게 된다 .(5 장의 《새치기조종기를 위한 등록기보관》참고) 이 탄 
창구성은 일반적인 함수호출과 완전히 일치한다. 따라서 봉사루린은 일반 C 언어구조를 
사용하여 파라메터 를 참조할수 있 다. 

실례를 하나 들어보자. writeO 체계호출을 처리하는 sys _ write () 봉사루린은 다음 
과 같이 선언한다. 

ssize_t sys_write (unsigned int fd , const char — user * buf , size_t count ) 

C 콤파일러는 탄창의 맨우부터 시작해서 돌아갈 주소 바로 다음에 fd 와 buf , 
count 파라메터 가 있을것 이 라고 생각하고 기호언어 함수를 만든다. 이 파라메터의 위 치는 
각각 ebx , ecx , edx 등록기를 보관한 곳이다. 드문 경우지만 체계호출이 어떠한 파라 
메터도 사용하지 않는 경우에도 해 당 봉사루린이 체계호출이 호출되기 직전에 CPU 등록 
기의 내용을 알아야 하는 경우가 있다. 이런 실례로 forkO 를 구현하는 do _ fork () 함수 
가 있는데 체계호출을 실행할 당시의 등록기값을 알아야 자식프로쎄스의 比 iread 마당으 
로 이 등록기를 복제 할수 있다 .(3 장의 《 threade 마당》참고) 이 경우 봉사루린은 
pt _ regs 형 파라메터 를 통해 SAVE _ ALL 마크로가 핵 심 부방식 탄창에 보관한 값에 호출할 
수 있다. (5 장의 《 do _ IRQ () 함수》참고) 

int sys_fork (struct pt_regs regs ) 

봉사루린의 결과값은 eax 등록기에 기록해야 한다. 이 작업은 C 콤파일러가 return ： 
명령을 실행할 때 자동으로 수행한다. 

6. 파라메터 확인 

핵심부는 사용자의 요구를 처 리하기 전에 모든 체계호출파라메 터를 주의깊게 검사해 
야 한다. 어떤 종류의 검사를 할지는 체계호출과 특정파라메 터에 따라 다르다. 앞서 소 
개 한 writeO 체 계 호출을 생 각해 보자. fd 파라메터 는 특정 파일 을 서 술하는 파일서 술자이 
여야 한다. 따라서 sys _ writ () 는 fd 가 이전에 열어놓은 과일의 서술자가 맞는지, 프로 
쎄스가 해 당 파일에 쓰기를 할수 있는지 검사해 야 한다. 이 조건중 하나라도 맞지 않으 
면 조종기는 부수값을，이 경우에는 오유코드 EBADF 를 반환해 야 한다. 그런데 모든 
체 계 호출에 서 공통적 인 검 사류형 이 하나 있 다. 파라메터 가 주소인 경 우 핵 심 부는 이 주 
소가 프로쎄스주소공간내 에 있는지 검사해 야 한다. 이 런 검사를 하는 방법은 두가지 이 다. 

■ 선형주소가 프로쎄스주소공간에 속하는지 , 속하면 이 주소를 포함하는 기 억기 령 역 
이 해당 호출권한이 있는지 확인한다. 

■ 선형 주소가 PAGE_OFFSE 보다 낮은지 (즉 핵 심 부용으로 예 약한 주소범 위 에 들어 
가지 않는지)만 확인한다. 

초기 Linux 핵심부는 첫번째 류형의 검사를 하였다. 그러나 체계호출에 전달한 각 
주소파라메터 를 모두 검 사해 야 하므로 퍼 그나 시 간이 걸 린 다. 더 구나 이 런 잘못을 하는 
프로그람은 매우 드물기때문이 보통 이려한 검사는 무의미하다. 따라서 2. 2핵심부부터 
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Linux 는 두번째 방법으로 검사를 하는데 프로쎄스기억기령역서술자를 검색할 필요가 
없기때문에 훨씬 더 효률적이다. 

선형주소가 PAGE _ OFFSET 보다 작다는것은 해당 주소가 옳다는 필요조건이지만 
충분조건은 아니다. 그러나 다른 오유를 나중에 발견할것이므로 핵심부에서 이 정도의 
검사만 한다고 위험 하지는 않다. 

따라서 이 호출방법은 실질적인 검사를 가능한 마지막 순간까지 즉 페지화장치가 선 
형주소를 물리주소로 바꾸는 순간까지 머루는것 이 다. 뒤에 나오는《동적주소검사: 수선 
코드》 에서 패 지절환례외 조종기 가 사용자방식 에서 파라메터 로 전달하여 핵 심부방식 에서 
사용한 잘못된 주소를 검출하는 방법을 설명한다. 어떤 사람은 도대체 왜 이런 초보적인 
검사가 필요한지 의아해 할것이다. 이런 종류의 검사는 실제로 프로쎄스주소공간과 핵심 
부주소공간을 잘못된 호출로부터 보호하는데 필수적이다. 

4장에서 본것처럼 주기억기는 PAGE _ OFFSET 부터 시작하여 사영 ( mapping ) 된다. 
이것은 핵심부코드가 기억기에 존재하는 모든 페지에 호출할수 있음을 의미한다. 따라서 
이 런 초보적 인 검사라도 하지 않으면 사용자방식프로쎄스가 핵심부주소공간에 속하는 주 
소를 파라메터로 전달하여 폐지절환례외를 일으키지 않고 기 억기 에 존재 하는 폐지 에 값 
을 읽거나 쓸수 있게 된다. 

체계호출에 전달한 주소는 access _ ok () 마크로를 통하여 수행된다. 이 함수는 addr 
과 size 라는 두 파라메 터 를 통해 작업 한다. 이 함수는 addr 에 서 addr + size -1 사이 에 있 
는 주소구간을 검사한다. 

이 함수는 먼저 가장 높은 주소인 addr + size 가 2 32 -1보다 큰지 검사한다. 

GNU C 콤파일 러 ( gcc ) 는 unsigned long 옹근수자료형 과 지 적 자를 모두 32 bit 수자 
로 나타내므로 이것은 자리넘침조건을 검사하는것과 같다. 이 함수는 또한 addr + size 가 
current 의 addr + limit . seg 마당에 보관된 값보다 큰지 검사한다. 

이 마당은 보통 일 반프로쎄 스에 서 는 PAGE _ OFFSET , 핵 심 부스레 드에 서 는 
Oxffffffff 이다. addr _ limit . seg 마당은 get _ fs 와 set _ fs 마크로를 리 용하여 동적으로 바 
끌수 있다. 

이 마크로는 핵심부가 체계호출봉사루린을 직접 호출하거나 핵심부자료토막에 있는 
주소를 파라메터 로 넘 길수 있게 한다. 이 마크로는 다음과 같다. 

int access_ok (const void * addr , unsigned long size ) 

{ 

unsigned long a = (unsigned long ) addr ； 
if (a + size < a 11 

a + size > current _ thread_info ( )-> addr — limit , seg ) 
return 0； 
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verify _ area () 함수는 access _ ok () 마크로와 같은 기능을 수행 하는데 원천코드에서 
는 이 함수를 많이 리용한다. 

핵심부코드에서는 사용자방식에 있는 프로쎄스의 주소공간에 직접 호출하면 안된다. 
그래서 다음에 나오는 프로쎄스주소공간을 호출하기 위한 여러 함수와 마크로를 제공한 
다. 그리고 체계호출봉사루린이나 장치구동프로그람의 여 러 연산함수를 포함한 많은 함 
수는 자신에 전달된 지적자가 사용자방식의 주소공간일것이라고 생각하고 주소검사를 한 
다. 핵심부에서 이런 함수를 직접호출하면 verify _ area () 등의 함수를 사용하여 주소를 
검사할 때 주소가 PAGE_OFFSET (즉 current _> addr _ limit . seg ) 보다 크기 때문에 잘 
못된 주소로 여기게 된다. 이것을 피하려면 주소공간의 범위를 핵심부주소공간의 범위로 
설정해야 한다. 이것이 get _ fs () 와 set _ fs () 를 사용하는 리유이다. 이 마크로는 각각 
current -> addr_limit 을 읽고 쓴다. 핵심부코드에서 체계호출조종기를 호출하기 전에 핵 
심부는 mm _ segment_t oldfs = get _ fs () 로 현재범위를 가져와 보관하고 
set _ fs ( KERNEL _ DS ) 를 통해 범 위를 핵심부의 범위 로 설정 한다. 그리 고 체계 호출을 실 
행 한 후에는 set _ fs ( oldfs ) 를 호출해서 이전범위로 복구한다. 

핵심부 2. 6부터는 주소를 검사하는 함수가 다음과 같이 되 여 있다. 

static inline int verify _ area(int type , const void _user * ad 
dr , unsigned long size ) 

{ 

return access_ok ( type , addr , size ) ? 0 : - EFAULT ； 

} 

type 은 % VERIFY_READ 이나 % VERIFY_WRITE 과 같은 호출의 형을 나타낸다. 
addr 는 검사해야 하는 리용자공간의 시작블로크주소이며 size 는 검사하는 블로크의 크 
기를 나타낸다. 리용자주소공간에 있는 기억블로크에 대한 지적자가 유효한가를 검사하 
는데 유효하면 0을 되돌러며 무효하면 EFAULT 를 되돌린다. 이 함수는 
access _ ok () 에 의해 교체된다. 

초기 의 Linux 핵 심 부에 서 는 핵 심 부방식 에 서 사용자주소공간에 호출하기 위 해 핵 심 
부방식에 진입하면 사용자프로쎄스의 자료토막 ( ds ) 를 fs 등록기로 보관하였다. 따라서 
핵심부코드에서는 fs 등록기를 통해서 사용자주소공간에 호출할수 있었다. get _ fs () 와 
set _ fs () 의 명칭과 기능은 여기서 유래하며 지금은 fs 등록기를 사용하지 않지만 핵심부 
코드내에서 체계호출조종기를 호출할 때에는 같은 일을 해야 한다. 

access_ok 마크로는 verify _ area () 와 똑같은 검사를 한다. 둘의 차이는 결과값이다. 
access_ok 마크로는 지정한 주소구간이 유효이면 1, 그렇지 않으면 0을 반환한다. 
_ addr_ok 마크로 역시 지정한 선형주소가 옳바르면 1, 아니면 0을 반환한다. 
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7. 프로쎄스주소공간호출 

체 계 봉사루린 이 프로쎄 스의 주소공간에 들어있는 자료를 읽 거 나 써 야 하는 경 우가 
많다. Linux 는 이런 호출을 쉽게 하려고 일련의 마크로를 제공한다. 이중에서 
get _ user () 와 put _ user () 를 설명하겠다. 전자는 지정한 주소부터 1이나 2, 4 B 의 련속 
된 자료를 읽을 때 사용하며 후자는 그 주소로 1이나 2, 4 B 의 자료를 써넣을 때 사용한 
다. 

각 함수는 전송할 값인 표와 변수 ptr 이 라는 두 파라메터 를 받는다. ptr 은 몇 B 를 전 
송할지도 결정한다. get _ user ( x , ptr ) 에서 ptr 가 가리키는 변수의 크기에 따라 이 함수 
는 _ get _ user_l () 이 나 _ get _ user _2() , _ get _ user _4() 기호언어 함수로 확장된다. 이 
중 하나인 get user 2() 를 례 로 들어 보자. 

— get _ user _2 : 

addl $1, %eax 
jc bad _ get_user 
movl % esp , %edx 
andl $0 xffffe 000, %edx 
cmpl 12(% edx ), %eax 
jae bad _ get_user 

2： movzwl - l (% eax ), %edx 
xorl % eax , %eax 
ret 

bad _ get _ user ： 

xorl % edx , %edx 

movl $- EFAULT , %eax 

ret 

eax 등록기는 읽어들일 첫번째 바이트의 주소 ptr 을 보관한다. 처음 6개의 명령어는 
실질적으로 verify _ area () 함수와 똑같은 검사를 한다. 이것은 읽어 들일 2 B 의 주소가 
4 GB 와 current 프로쎄스의 addr _ limit . seg 마당 (이 마당은 프로쎄스서술자의 편위 12에 
들어있고 cmpl 명 령 어의 첫번째 피 연산자이 다. )보다 작은지 확인한다. 

주소가 유효하면 이 함수는 movzwl 명령어를 실행하여 읽은 자료를 edx 등록기의 
아래자리 2 B 에 보관하며 edx 의 웃자리바이트를 0으로 설정한다. 그리고 나서 eax 에 결 
과값 0을 보관하고 완료한다. 주소가 유효하지 않으면 edx 를 0으로 만들고 EFAULT 
값을 eax 에 보관한 후 완료한다. 

put _ user ( x , ptr ) 마크로는 x 값을 ptr 부터 시작하는 프로쎄스주소공간에 넣는다는 
점을 제외하면 앞에서 설명한것과 비슷하다. 표의 크기에 따라 _ put _ user _ asm () 마크로 
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(1 이나 2， 4 B ) 나 _ put _ user _ u 64() 마크로 (8 B ) 를 호출한다. 두 마크로 모두 성공한 
경우 eax 에 0을 넣어서 반환하며 실패한 경우 EFAULT 를 반환한다. 

표 8-12 에 핵심부방식에서 프로쎄스주소공간에 호출할수 있는 여러 함수와 마크로 
를 렬거하였다 이중 몇개 에는 밑선 두개 (_) 가 앞붙이 로 붙은 변형 이 있다. 앞붙이 가 붙 
지 않은 함수는 요구한 선형주소구간이 유효한지 검사하는데 시간을 소요하지만 앞불이 
가 붙은 함수는 이런 검사를 하지 않는다. 핵심부가 프로쎄스주소공간에 똑같은 기억기 
령역에 반복해서 호출해야 하는 경우에는 시작할 때 한번만 검사하고 나중에는 검사하지 
않는것이 훨씬 효률적일것이다. 


표 8-12. 프로째스의 주令 'VM1I 수命’)14— 한수와 UB 로 


함 수 

동작 

get_user 

一 get user 

사용자공간에서 옹근수값을 읽어들인다. a 이나 

2, 4 B ) 

put_user 

— put user 

사용자공간으로 옹근수값을 쓴다 .(1 이나 2, 4 B ) 

copy _ from_user 
— copy from user 

사용자공간에 서 원하는 크기 만큼 차단을 복사한 

다. 

copy _ to_user 

— copy to user 

사용자공간으로 원하는 크기 만큼 차단을 복사한 

다. 

strncpy_from 

—user 

— strncpy_f rom_u 

ser 

사용자공간에 있는 0으로 끝나는 문자렬을 복사 

한다. 

strlen_user 

strnlen user 

사용자공간에 있는 0으로 끝나는 문자렬의 길이 
를 반환한다. 

clear_user 

— clear_user 

사용자공간에 있는 기 억기 령역을 0으로 채운다. 


동적주소검사: 수선코드 

앞서 살펴본것처럼 verify _ area () 함수와 access _ ok , _ addr _ ok 마크로는 체계호출 
에 파라메터 로 전달한 선형 주소에 대 해 초보적 인 검 사만 한다. 이 것 으로는 해 당 주소가 
프로쎄스주소공간에 들어있다고 담보할수 없으므로 잘못된 주소를 넘겨준 프로쎄스는 페 
지절환례외를 발생시킬수 있다. 

어떻게 핵심부가 이런 종류의 오유를 발견하는지 설명하기 전에 핵심부방식에서 페 
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지절환례외가 일어날수 있는 4가지 경우를 살펴보자. 

1. 핵 심부가 프로쎄 스주소공간에 속한 주소에 호출할 때 해 당 폐 지틀이 존재 
하지 않거나 읽기전용폐지에 쓰러고 한 경우이다. 이 경우 조종기는 새 폐지틀을 할 
당하여 이 것 을 초기 화해 야 한다. (3 장의 《 요구페 지 화》와《 쓰기 복사》참고) 

2. 핵심부가 프로쎄스주소공간에 속한 폐지를 호출할 때 해당 폐지표입구점 
이 초기화되지 않은 경우이 다 .(3 장의 《 불련속적 인 기 억기령역호출》참고) 이 경우 
핵심부는 현재프로쎄스의 페지표에 있는 일부입구점을 제대로 설정해야 한다. 

3. 어떤 핵심부함수에는 해당 프로그람을 실행하면 례외를 일으킬수 있는 프 
로그람오유가 있을수 있다. 아니 면 일시 적 인 하드웨 어 오유로 례 외 가 발생할수 있다. 
이 경우 조종기는 핵심부웁스 (kernel oops ) 를 실행해 야 한다. (3 장의 《 주소공간밖 
의 잘못된 주소처 러》참고) 

4. 이 장에서 소개한 경우로 체계호출봉사루린이 체계호출에 전달한 주소의 
기 억기령역 에 읽거 나 쓰기를 할 때 해당 주소가 프로쎄스주소공간에 들어있지 않은 
경우이다. 

폐지절환조종기는 잘못된 선형주소가 프로쎄스소유의 기억기령역중 하나에 들어있 
는지 검사하여 첫번째 경우는 쉽게 인식할수 있다. 두번째 경우 역시 프로쎄스의 폐지표 
에 해당 주소를 배 치하는 빈값이 아닌 옳바른 입구점 이 있는지 검사해서 알수 있다. 그 
러면 조종기가 남은 두 경우를 어떻게 구별하는지 살펴보자. 

8. 례외표 

페지절환의 원인을 알아내는 열쇠는 핵심부가 프로쎄스주소공간에 호출하는데 사용 
하는 함수의 작은 부분에서 오유가 발생한다는데 있다. 프로쎄스주소공간에 호출하는데 
는 앞에서 설명한 적은 수의 함수와 마크로만을 사용한다. 따라서 례외가 잘못된 파라메 
터때문에 발생하였다면 이것을 발생시킨 명령어는 이 함수중 하나에 들어있거나 이 마크 
로중 하나가 확장되 여 만들어 진 코드안에 있을것 이 다. 사용자공간을 호출하는 명 령 어의 
개수는 매우 적다. 

그러므로 프로쎄스주소공간에 호출하는 각 핵심부명령의 주소를 《 례외표 
(exception table ) 》라는 구조체로 모으는 일은 그러 어렵지 않다. 

이 작업만 제대로 하면 나머지는 쉽다. 핵심부방식 에서 폐지절환례외가 발생 하면 
do _ page _ fault () 조종기는 례외표를 검사한다. 례외를 일으킨 명령어의 주소가 이곳에 
들어있으면 잘못된 체 계 호출파라메터 때 문에 오유가 발생 한것 이 고 그렇 지 않으면 더 심 각 
한 다른 오유때문이다. 

Linux 는 여러 례외표를 정의한다. 핵심례외표는 핵심부프로그람영상을 만들 때 C 
를파일러가 자동으로 생성한다. 이것은 핵심부코드토막의 _ ex _ table 단락에 보관되고 
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시작과 끝위치는 C 콤파일러가 만드는 두 기호 _ start _ ex_table 과 

_ stop _ ex_table 로 알수 있다. 

나가서 동적으로 적재한 각 핵심부모둘은 자신만의 국부례외표를 포함한다. 이 표는 
모둘영상을 만들 때 C 콤파일러가 자동으로 생성하며 모둘을 실행중인 핵심부에 추가할 
때 기억기에 적재된다. 

례 외 표의 각 입 구점 은 다음 두 마당을 포함하는 exception _ table_entry 구조체 이 다. 
insn 

프로쎄 스주소공간에 호출하는 명 령 어의 선형 주소 
fixup 

insn 에 있는 명령어에서 페지절환례외가 발생할 때 호출할 기호언어코드의 주소 
《수선코드 (fixup code ) 》는 례외때문에 발생한 문제를 해결하는 기호언어명령어 
몇개로 이루어진다. 이 절뒤부분에서 나오지만 일반적으로 이런 수선작업은 강제로 봉사 
루린이 사용자방식프로쎄 스에 오유코드를 반환하도록 하는 일련의 명 령 어를 삽입 하는것 
이 다. 

삽입할 명 령 어는 보통 프로쎄스주소공간에 호출하는 마크로나 함수내 에서 정의 한다. 
때로는 콤파일러가 핵심부코드토막중 .fixup 이라는 별도의 단락에 두기도 한다. 
모든 례외표에 지정한 주소가 있는지 찾을 때에는 search _ exception _ table () 함수 
를 사용한다. 

이 함수는 주소가 표에 들어있으면 해 당하는 fixup 주소를，없으면 0을 반환한다. 
따라서 패지절환조종기 do _ page _ fault () 는 다음과 같은 문장을 실행한다. 
if ((fixup = search _ exception_table ( regs -> eip )) != 0) { 
regs->eip = fixup : 
return ； 

} 

regs->eip 마당은 례 외 가 발생 할 때 핵 심 부방식탄창에 보관한 eip 등록기 의 값이 다. 
이 등록기 에 있는 값이 (명 령 어지 적자 (instruction pointer )) 례외 표에 들어 있으면 
do _ page_fault 0 는 보관된 eip 값을 search _ exception _ table () °1 반환하는 주소로 바 
꾼다. 그리고 나서 패지절환조종기가 완료하면 새치기된 프로그람은 수선코드에서 실행 
을 재개 하게 된다. 

9. 례외표생성과 수선코드 

프로그람작성자는 GNU 기호언어의 .sec 社 on 지시어 ( directive ) 를 사용하여 다음에 
나오는 코드를 실행과일의 어느 단락 (sec 吐 on ) 에 넣을지 지정할수 있다. 4절에서 보지 
만 실행파일에는 코드토막이 있고 이것은 다시 여러 단락으로 쪼개진다. 따라서 다음기 
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호언어명령어는 례외표에 입구점을 추가한다. 《 a 》 속성은 이 단락을 나머지핵심부영상 
과 함께 기억기에 적재해야 한다고 지시한다. 

. section _ ex _ table , “a “ 

• long 잘못된 명령어주소，수선코드주소 

. previous 

. previous 지시어는 기호언어가 다음에 나오는 코드를 마지막 section 지시어가 나 
오기 전 단락에 넣도록 지시한다. 다시 앞에서 언급한 get user 10과 
_ get _ user _2 () , _ get _ user _4 0 함수를 살펴 보자. 프로쎄스주소공간에 호출하는 명령 
어 에는 각각 1, 2, 3 이 라는 표식 이 붙어 있다. 

— get _ user _ l : 

[-] 

1： movzbl (% eax ) , %edx 

I 에 

— get _ user _2 : 

2: movzwl -1 (% eax ), %edx 

M 

— get _ user _4 : 

卜] 

3： movl -3(% eax ), %edx 

bad _ get_user : 

xorl % edx , %edx 

movl $- EFAULT , %eax 

ret 

. section _ ex _ table , “ a ” 

. long lb , bad _ get_user 
. long 2 b , bad _ get_user 
. long 3 b , bad _ get_user 

. previous 

각 례외표입구점은 두 표식로 구성된다. 첫번째는《앞》에 나오는(다른 말로 프로 
그람의 앞행 에 나오는) 표식임 을 의 미 하는 b 라는 접 미 사가 옹근수표식 에 불은것 이 다. 

두번째는 수선코드의 주소이다. 수선코드는 이 세 함수에서 공통으로 사용하며 
bad _ get _ user 라는 표식이 붙어있다. 1이나 2, 3 표식이 붙은 명령어에서 폐지절환례외 
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가 발생하면 이 수선코드를 실행하며 이 코드는 체계호출을 진행한 프로쎄스에 
EFAULT 오유코드를 되돌린다. 

사용자방식주소공간에 서 동작하고 수선코드기 법 을 사용하는 다른 핵 심 부코드의 실 례 
로 strlen _ user ( string ) 마크로를 살펴보자. 이 마크로는 프로쎄스주소공간에 있는 0으 
로 끝나는 문자렬의 길이를 반환하며 오유가 발생한 경우 0을 반환한다. 이 마크로는 
다음과 같은 기호언어명령어를 생성한다. 
movl $0, %eax 

movl $0 x 7 fffffff , %ecx 
movl % ecx , %ebp 
movl string , %edi 
0： repne ： scasb 

subl % ecx , %ebp 
movl % ebp , %eax 

1： 

. section . fixup , “ a ” 

2: movl $0, %eax 

jmp lb 
. previous 

. section — ex — table , ” a ” 

. long Ob , 2 b 
. previous 

ecx 와 ebp 등록기를 사용자방식주소공간에서 문자렬의 최대허용길이를 나타내는 
0 x 7 fffffff 값으로 초기화한다. repne ； scasb 기호언어명령어는 반복해서 edi 등록기가 
가리키는 문자렬을 검색하여 eax 에 들어있는 값 0( 문자렬의 끝을 나타태는 \0문자)을 
찾는다. scasb 명령어를 반복할 때마다 ecx 등록기의 값이 줄어들기때문에 결국 eax 등록 
기에는 문자렬에서 검색한 바이트수, 즉 문자렬길이가 들어간다. 

이 마크로의 수선코드는 . fixup 단락에 들어간다. 《 ax 》 속성은 이 단락을 기억기에 
적재해야 하며 이 단락에 실행가능한 코드가 들어있음을 지시한다. 표식 0에 있는 명령 
어에서 폐지절환례외가 발생하면 표식 2에 있는 수선코드를 실행한다. 이 코드는 단지 
eax 등록기에 0을 보관하여 마크로가 문자렬의 길이 대신 오유코드 0을 반환하도록 한 
후 마크로뒤에 나오는 명령어를 가리키는 표식 1로 이행한다. 

10. 핵심부래퍼루린 

체계호출은 주로 사용자방식프로쎄스에서 사용하지만 서고함수를 사용할수 없는 핵 
심 부스레 드에 서 도 사용할수 있 다. Linux 는 체 계 호출에 해 당하는 래 퍼 루 린 (wrapper 
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rou 仕 ne ) 을 쉽게 선언할수 있게 _ syscallO 에서 _ syscall 6 까지 마크로 7개를 정의한다. 

마크로이름에 있는 수자 0-6 은 체계호출이 사용하는 파라메터의 개수(체계호출번호 
제 외 )를 말한다. 이 마크로를 libc 표준서 고에 들어있지 않은 래 퍼 루린을 선언하는데 도 
사용할수 있다.(례를 들면 서 고에서 Linux 체 계 호출을 지 원하지 않아서) 그러 나 6개 가 
넘 는 파라메 터(체 계 호출번호 제 외)를 받는 체 계 호출이 나 비 표준적 인 결과값을 반환하는 
체계호출용 래퍼루린을 정의하는데는 사용할수 없다. 

각 마크로는 파라메터 를 정 확히 2+2 Xn ( n 은 체 계 호출로 전달하는 파라메터 의 개 
수)개 받는다. 처음 두 파라메터는 반환할 형과 체계 호출의 이름이 다. 추가로 전달하는 
파라메터 의 쌍은 해 당 체 계 호출파라메터 의 형 과 이 름이 다. 례 를 들어 forkO 체 계 호출의 
래퍼루린은 다음과 같이 만들수 있다. 

_ syscallO ( int , fork ) 

반면 writeO 체계호출의 래퍼루린은 다음과 같이 만들수 있다. 

_ syscall 3( int , write , int , fd , const char *, buf , unsigned int , count ) 

이 마크로는 다음과 같은 코드를 만들어낸다. 

int writ (int fd , const char * buf , unsigned int count ) 

{ 

long _ res : 
asmC “int $0 x 80” 

: “ = a ” ( _ r e s ) 

: ” 0” (_NR _ write ), “ b ” (( long ) fd ), 

“ c ” (( long ) buf ), “ d ” (( long ) count )); 
if ((unsigned long ) _res >= (unsigned long )-125) { 

errno = -— res ； 

— res = -1； 

} 

return ( int ) _ res : 

} 

_ NR_writ 마크로는 _ syscall 3 의 두번째 파라메터 에서 만든것 이 다. 이것은 
writeO 의 체계호출번호로 확장된다. 우의 함수를 를파일하면 다음기호언어코드가 만들 
어진다. 
write ： 

pushl %ebx 
movl 8(% esp ), %ebx 
movl 12( •資資必 I , tec 友 
movl 16(% esp ), %edx 


: ebx 를 탄창에 보관한다. 

; 첫 번째 파라메터 를 ebx 에 보관한다. 

; 두번째 파라메터 를 ecx 에 보관한다. 

: 세 번째 파라메터 를 edx 에 보관한다. 
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movl $4 ， %eax 
int $0 x 80 
cmpl $-126 ，%eax 
jbe .LI 
negl %eax 
movl % eax , errno 
movl $-1, %eax 


: _ NR _ write 를 eax 에 보관한다. 
; 체계호출을 실행한다. 

: 결과값을 검사한다. 


: 오유가 발생하지 않았으면 이행한다. 

: eax 값의 부호를 바꾼다. 

: 결과값을 errno 에 보관한다. 

: eax 를 1로 설정한다. 

: 탄창에서 ebx 를 복구한다. 

: 자신을 호출한 프로그람으로 돌아간다. 


. L 1 : popl %ebx 

ret 


int $0 x 80 명령어를 실행하기 전에 write () 함수의 파라메터를 CPU 등록기로 보관하 
는 방법을 눈여겨보자. eax 로 반환하는 값이 1에서 125사이에 있는 경우(핵심부는 
include / asm - i 386/ errno . h 에서 정의하는 가장 큰 오유코드가 125라고 가정한다.) 오 
유코드로 해석해야 한다. 이 경우 래퍼루린은 eax 값을 errno 에 보관하고 1을 반환한 
다. 그렇지 않으면 eax 의 값을 반환한다. 


제4절. 프로그람실행 


3장에 서 설명 한 《 프로쎄 스》의 개 념 은 초창기 Unix 시 절부터 실 행 중인 프로그람 
그룹이 체계자원을 두고 경쟁하는 행동을 나타내는데 사용해왔다. 여기서는 프로그람과 
프로쎄스의 관계에 중점을 둔다. 특히 프로그람파일의 내용에 따라 핵심부가 프로쎄스의 
실행문맥 (execution context ) 을 설정하는 방법을 설명한다. 명령어들을 기억기에 읽어 
들여 CPU 에 가리키는것이 그렇게 큰 문제로 보이지는 않지만 핵심부는 일부 부분에서 
유연성을 제공해야 한다. 

여러가지 형식의 실행파일 

Linux 는 다른 조작체 계용으로 콤파일된 2진파일을 실행할수 있는 능력 이 뛰 여 나다. 

공유서 고 

많은 실행파일이 프로그람을 실행하는데 필요한 모든 코드를 포함하지 않고 핵심부 
가 실행시간에 서고에서 함수를 읽어들이기를 바란다. 

실행문맥의 다른 정보 

여기 에는 프로그람작성 자에게 익숙한 명 령행파라메터와 환경변수를 포함한다. 프로 
그람은 디스크에 실행과일 (executable file ) 로 보관된다. 실행 파일은 실행할 함수의 목 
적코드와 함수가 사용할 자료를 포함한다. 프로그람의 많은 함수는 모든 프로그람작성자 
가 사용할수 있는 봉사루린이다. 이것들의 목적코드는《서고》라는 특별한 파일에 포함 
되여있다. 실제로 서고함수코드는 실행파일에 정적으로 복사할수도 있고(정적서고)，실 
행 중에 프로쎄스에 련결할수도 있다. (공유서 고，여러 독립적인 프로쎄스가 공유서 고의 
코드를 공유할수 있다.) 


透資邊 @資變©^ 


749 


Linux 행심부해설서 


프로그람을 시 작할 때 사용자는 프로그람의 실 행방식 에 영 향을 줄 두가지 정 보를 제 
공한다. 명령 행인자 (Command-line argument) 는 사용자가 멜재촉문에서 실행파일명 
뒤에 직접 입력한다. HOME 이나 PATH 와 같은 환경변수 (Environment variable) 는 
월에서 물려받지만 사용자가 프로그람시작전에 이 변수의 값을 변경할수 있다. 

《 실 행 파일》부분에 서 는 프로그람의 실 행 문맥 를 설명 한다. 《 실 행 가능한 형 식》부분 
에서는 Linux 가 지원하는 실행가능한 몇가지 형식을 살펴본다. 또한 Linux 가 다른 
조작체계 에서 를파일한 프로그람을 실행하기 위해 《 특성 (personality) 》을 어떻게 바 
끌수 있는지 살펴본다. 마지막으로 《exec 계렬함수》부분에서는 프로쎄스가 새로운 프 
로그람을 시작할수 있게 해주는 체계호출을 설명한다. 

1. 실 행파일 


이 미 프로쎄 스를 실 행 문맥 (execution context) 으로 정 의 하였 다. 즉 특정 계 산을 실 
행하는데 필요한 정보를 모아놓은것을 의미한다. 여기에는 호출하는 페지, 열린파일, 하 
드웨어등록기의 내용 등이 포함된다. 실행파일은 새로운 실행문맥를 어떻게 초기화하는 
지 (즉 새로운 계산을 어떻게 시작하는지) 나타내는 일반파일이다. 

사용자가 현재등록부의 파일목록을 보려고 한다고 가정하자. 사용자는 월재촉문에 
외부명 령 /bin/ls 의 파일 명을 입 력 하여 얻 을수 있 다는 사실 을 알고있 다. 

명 령월은 새로운 프로쎄스를 생성 (fork) 하고 새로운 프로쎄스는 execveO 체계 호출 
을 실행하면서 (《exec 계렬함수》참고) Is 실행파일의 전체 경로명을 포함하는 문자렬 
(이 경 우는 /bin/ls) 을 파라메터 로 전달한다. sys_execve() 봉사루린은 대 응하는 파일 
을 찾고 실행파일의 형식을 검사한 다음 그 안에 보관된 정보에 따라 현재프로쎄스의 실 
행문맥를 변경한다. 결과적으로 체계호출이 완료하면 프로쎄스는 실행파일에 보관된 코 
드를 실행하여 등록부목록을 렬거하는 작업을 수행한다. 

프로쎄스가 새로운 프로그람의 실행을 시작하면 이전계산과정에서 엄은 자원을 버러 
기때문에 프로쎄스의 실행문맥이 크게 바권다. 앞의 실례에서 프로쎄스가 /bin/ls 를 실 
행 하기 시 작하면 프로쎄 스는 월 인자를 execveO 체 계 호출에 전달된 파라메 터 로 교체 하고 
새로운 월환경변수(《명령행인자와 월환경》참고)를 엄는다. 부모프로쎄스로부터 물려 
받은(그리고 쓰기복사 (Copy On Writ) 기구를 동해 공유된) 모든 페지를 해제하고 새로 
운 사용자방식주소공간을 리용해서 새로운 계산을 시작한다. 프로쎄스의 권한까지도 바 
뀔수 있다.(아래 《프로쎄스의 자격과 특질》참고) 그러나 프로쎄스 PID 는 바뀌지 않으 
며 새로운 계산은 이전계산에서 execveO 함수를 실행하는 동안 자동으로 닫히지 않은 
열린 파일의 서술자를 물려받는다. 

2. 프로쎄스의 믿음권한 

전통적으로 Unix 체계에서는 각 프로쎄스에 몇가지 《 믿음권한 (credential) 》을 
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대 응시 킬수 있 다. 믿 음권한은 프로쎄 스를 특정 사용자와 특정 사용자그룹에 련결 ( bind ) 한 
다. 믿음권한은 다중사용자체계에서 중요한데 믿음권한으로 각 프로쎄스가 할수 있는 일 
과 할수 없는 일을 결정하므로 각 개 인자료의 완전성 ( integrity ) 과 전체적 인 체계의 안 
정 성 ( stability ) 을 보장해 주기때 문이 다. 

믿음권한을 사용하려면 프로쎄스자료구조와 보호할 자원 모두의 지원이 필요하다. 
명백한 자원은 파일이다. Ext 2 파일체계에서 각 파일은 특정사용자가 소유하고 일부사용 
자의 그를에 속한다. 파일의 소유자는 그 자신, 파일사용자그롭，다른 모든 사용자로 구 
분하여 해 당 파일에 어떤 종류의 연산을 허용할지 결정할수 있다. 프로쎄스가 파일에 호 
출하려고 시도하면 VFS 는 파일의 소유자와 프로쎄스의 믿음권한으로 성립된 권한에 따 
라 해 당 호출을 허용할지 검사한다. 

프로쎄스의 믿음권한은 표 8-13 에 나타낸 프로쎄스서술자의 여러 마당에 보관한다. 

이 마당들은 체계의 사용자와 사용자그룹의 식별자를 포함하며 호출하려는 파일의 
색 인마디안에 보관된 대 응하는 식 별 자와 비 교된다. 


蒙 8-13. 전 SSfEI 프로![스믿음권한 


이름 

설명 

uid , gid 

사용자와 그를의 실제 ( real ) 식별자 

euid , egid 

사용자와 그룹의 유효 ( effective ) 식별자 

fsuid , fsgid 

사용자와 그를의 파일호출을 위한 유효식 별자 

groups 

부가적이 그룹식별자 

suid , sgid 

사용자와 그룹의 보관된 ( saved ) 식별자 


UID 0은 초사용자(뿌리 )를 나타내 고 GID 0은 뿌리그를을 나타낸다. 프로쎄 스의 
믿 음권한이 0이 면 핵 심 부는 권한검 사를 하지 않고 이 특권프로쎄 스에 체 계관리 나 하드 
웨어처리와 같이 일반 프로쎄스에 허가하지 않는 모든 일을 허가한다. 

프로쎄 스를 생 성 하면 해 당 프로쎄 스는 항상 부모의 믿 음권한을 물려받는다. 그러 나 
프로쎄스가 새로운 프로그람의 실행을 시작하거나 적절한 체계호출을 통해 이 믿음권한 
을 나중에 변경할수 있다. 일반적으로 한 프로쎄스의 uid , euid , fsuid , suid 마당값은 
같다. 그러나 프로쎄스가 setuid 프로그람 즉 setuid 기발을 1로 설정한 실행파일을 실행 
하면 euid 와 fsuid 마당을 파일소유자의 식별자로 설정한다. 대부분의 검사는 이 두 마 
당을 대상으로 한다. fsuid 는 파일관련연산에 사용하고 euid 는 다른 모든 연산에 사용 
한다. 이런 사항은 gid , egid , fsgid , sgid 마당에도 그룹식별자에 대해 류사하게 적용 
된 다. 

fsuid 마당을 어떻게 사용하는지 보기 위해 사용자가 자신의 암호를 바꾸러는 경우 
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를 생각해보자. 모든 암호는 공통파일에 보관되여있지만 이 파일은 보호되여있으므로 사 
용자가 직접 편집할수 없다. 따라서 사용자는 / usr / bin/passwd 라는 setuid 기발이 1로 
설정되 여있으며 파일의 소유자가 초사용자인 프로그람을 호출한다. 월로 생성 ( fork ) 한 
프로쎄스가 이와 같은 프로그람을 실행하면 프로쎄스의 euid 와 fsuid 마당은 0 즉 초사 
용자의 PID 로 설정된다. 이제 핵심부가 호출조종를 실행하면서 보면 fsuid 값이 0이므 
로 프로쎄스는 파일에 호출할수 있다. 물론 / usr / bin/passwd 프로그람은 사용자에게 
자신의 암호를 변경하는일만 허 락한다. 

우리는 Unix 의 오랜 력사를 통해 setuid 프로그람이 매우 위험하다는 사실을 알고 
있 다. 

악의가 있는 사용자는 프로그람작성자가 전혀 계획하지 않은 연산을 setuid 프로그 
람이 실행하도록 코드안에 있는 프로그람오유를 동작시킨다. 최악의 경우 이때문에 전체 
체계의 안전이 위태로울수 있다. Linux 는 이런 위험을 최소화하려고 다른 최신 Unix 체 
계와 마찬가지로 프로쎄스는 필요할 때에만 setuid 특권을 엄고 더는 필요없으면 버릴수 
있게 한다. 이 특성이 매우 유용하다는 사실은 여러 보호준위가 있는 사용자응용프로그 
람을 구현할 때 나타난다. 프로쎄스서술자에 suid 마당이 있는데 이 마당에는 setuid 프 
로그람을 실행한 직후의 유효식별자 (euid 와 fsuid ) 값이 들어간다. 프로쎄스는 setuid 0, 
setresuidO , setfsuidO , setreuidO 체계 호출을 사용하여 유효식별자를 바꿀수 있 다. 

표 8-14 에서는 이 체계호출들이 프로쎄스믿음권한에 어떻게 영향을 주는지 보여준 
다. 

주의할점은 호출하는 프로쎄스가 초사용자권한이 없으면 즉 euid 마당이 0이 아니면 
프로쎄스의 믿음권한마당에 포함된 값을 설정하는 일에만 이 체계호출을 사용할수 있다. 

례를 들어 일반 사용자프로쎄스가 setfsuidO 체계호출을 진행하여 500이라는 값을 
프로쎄스의 fsuid 마당에 넣을수 있지만 다른 믿음권한마당중 하나가 이미 500이란 값을 
담고있을 때에만 가능하다. 


표 8-14. 프로 Ml [스믿음권한을 설정하는 체계호_의 의미 


마당 

setuid ( e ) 

setresuid 

( u , e , s ) 

setreui 

d ( u , e ) 

setfsui 

d ( f ) 

euid =0 

euid 유 

0 

uid 

e 로 설 

정 

변화없 

U 로 설정 

U 로 설 

정 

변화없 

euid 

근로 설 

정 

e 로 설 

정 

근로 설정 

e 로 설정 

변화없 

fsuid 

근로 설 

정 

근로 설 

정 

근로 설정 

근로 설정 

f 로 설 

정 
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suid 

근로 설 

변화없 

티로 설정 

e 로 설정 

변화없 


정 

음 



음 


사용자 ID 마당 4 개사이의 때로는 복잡한 관계를 리해하기 위해 setuidO 체계호출을 
생각해보자. 호출하는 프로쎄스의 euid 마당이 0으로 설정되 였는지(즉 프로쎄스가 초사 
용자권한을 소유하고있는지) 또는 일반 UID 로 설정되였는지에 따라 실제동작이 다르다. 

euid 마당이 0이면 체계호출을 진행하는 프로쎄스의 모든 믿음권한마당 ( uid ， euid , 
fsuid , suid ) 을 파라메터 근의 값으로 설정 한다. 초사용자프로쎄 스는 자신의 권한을 포 
기 하고 일반사용자가 소유한 프로쎄스가 될수 있다. 이 경우는 례를 들어 사용자가 가입 
할 때 발생한다. 체계는 새로운 프로쎄스를 초사용자권한으로 생성하지만 프로쎄 스는 
setuidO 체계호출을 진행하여 자신의 권한을 포기하고 사용자의 가입월프로그람을 실행 
한다. 

GID 의 유효믿음권한은 대응하는 setgidO , setgidO , setfsgidO , setregidO 체계 
호출을 사용하여 바끌수 있다. 

euid 마당이 0이 아니면 체계호출은 euid 와 fsuid 에 보관된 값만 변경하고 다른 두 
마당은 변경하지 않는다. 이것은 setuid 프로 그람을 실행하는 프로 쎄스가 euid 와 fsuid 
에 보관된 유효권한을 uid (프로 쎄스는 실행파일을 실행한 사용자처럼 동작한다.) 또는 
suid (프로 쎄스는 실행파일을 소유한 사용자처럼 동작한다.)중에서 선택하여 설정할수 
있게 한다. 

3. 프로쎄스의 자격 

Linux 는 자격 (capability) 개 념 에 기 반을 둔 새 로운 프로쎄 스자격 모형 을 향해 나아 
가고있다. 간단히 말하면 자격은 프로쎄스가 특정들라스의 연산이나 특정연산을 수행하 
도록 허 가 받았는지 를 나타태 는 기 발이다. 이 모형 은 euid 에 따라 프로쎄 스가 모든 일 
을 할수 있거나 아무일도 할수 없는 전통적인《초사용자 대 일반사용자》모형과 다르다. 
표 8-15 에서 보여주는바와 같이 Linux 핵심부는 여러 자격을 포함한다. 


표 8-15. Linux 자격 


이 름 

설 명 

CAP_AUDIT_WRITE 

망련결소케트에 대한 쓰기시 검사통보발 

생을 허 가한다. 

CAP_AUDIT_CONTR 

OL 

망련결 소케 트들에 의 한 핵 심 부검 사동작조 
종을 허가한다. 

CAP_CHOWN 

파일과 그룹소유권한의 변경에 대한 제한 
을 무시한다. 
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CAP _ DAC_OVERRID 

E 

파일 호출권한을 무시 한다. 

CAP _ DAC _ READ_SE 

ARCH 

파일/등록부읽기, 탐색권한을 무시한다. 

CAP FOWNER 

파일소유에 따른 호출제 한을 무시 한다. 

CAP_FSETID 

setuid 와 setgid 기발설정제한을 무시한 

다. 

CAP KILL 

신호생성 할 때 권한검사를 무시 한다. 

CAP _ IPC_LOCK 

폐지와 공유기억기토막에 잠그기를 허용 
한다. 

CAP IPC OWNER 

IPC 소유권검사를 생략한다. 

CAP_LEASE 

파일 임 대 ( lease ) 를 허 용한다 (12 장 
《 Linux 파일잠그기》참고). 

CAP _ LINUX_IMMUT 

ABLE 

추가전용 혹은 변경 할수 없는 

Ext 2/ Ext 3 파일의 변경을 허용한다. 

CAP—MKNOD 

mknodO 특권연산권한을 허용한다. 

CAP NET ADMIN 

일 반망환경 관리 를 허 용한다. 

CAP _ NET _ BIND_SER 

VICE 

1024번이하의 TCP/UDP 소케트결합 
( binding ) 을 허용한다. 

CAP _ NET_BROADCA 

ST 

현재 사용되지 않는다. 

CAP _ NET_RAW 

RAW 와 PACKET 소케트사용을 허용한 

다. 

CAP_SETGID 

그롭프로쎄 스특질조작에 대한 제한을 무 

시한다. 

CAP SETRCAP 

특질조작을 허용한다. 

CAP—SETUID 

사용자프로쎄 스자격 조작에 대 한 제 한을 

무시 한다. 

CAP SYS ADMIN 

일반체계관리를 허용한다. 

CAP SYS BOOT 

rebootO 사용을 허용한다. 

CAP SYS CHROOT 

chrootO 사용을 허용한다. 

CAP SYS MODULE 

핵심부모둘의 삽입과 삭제를 허용한다. 

CAP _ SYS_NICE 

nice 0 와 setpriorityO 체계 호출의 권한 
검사를 생략하고 실시간프로쎄스의 생성을 허 
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용한다. 

CAP _ SYS_PACCT 

프로쎄 스계 정 ( accounting ) a 설정 을 허 용 

한다. 

CAP _ SYS_PTRACE 

임의의 프로쎄 스에 대 한 ptrace 0 사용을 

허용한다. 

CAP _ SYS_RAWIO 

iopermO 과 ioplO 을 통한 I 八)포구호출 
을 허용한다. 

CAP _ SYS_RESOURC 

E 

자원제 한을 증가시 키 는것 을 허 용한다. 

CAP _ SYS_TIME 

체계시간과 실시간시간의 변경을 허용한 

다. 

CAP _ SYS _ TTY_CONF 

IG 

말단설정을 위한 vhangupO 체계호출의 

실행을 허용한다. 


자격의 주되는 우점은 각 프로그람이 항상 제한된수만큼의 자격만을 필요로 한다는 
점 이 다. 

따라서 악의를 품은 사용자가 오유가 존재하는 프로그람을 리용하는 방법을 발견하 
였다고 해도 제한된 연산류형만을 불법으로 실행 할수 있다. 례를 들어 오유가 있는 프로 
그람에 CAP _ SYS_TIME 자격만 있다고 하자. 이 경우 오유를 악용할 방법을 발견한 사 
용자는 단지 실제 시 간과 체 계시 간만 불법 으로 변경할수 있을뿐이 며 다른 특권연산은 실 
행할수 없 다. 

현재 VFS 와 Ext 2 파일체계는 자격모형을 지원하지 않으므로 프로쎄스가 어떤 파일을 
실행할 때 적 용해 야 하는 자격집 합을 실행파일 에 지정할 방법은 없다. 그러 나 어떤 프로 
쎄스가 CAP_SETPCAP 자격을 소유하고있다면 이 프로쎄스는 capgetO 과 capsetO 체 
계호출을 사용하여 명시적으로 자격을 얻거나 설정할수 있다. 례를 들어 login 프로그람 
을 수정 하여 다른 프로그람의 자격중 일부를 보유하거 나 제거 할수 있도록 할수 있다. 

Linux 핵심부는 이미 자격을 고려하고있다. 례를 들어 사용자가 프로쎄스의 정적우 
선순위를 변경할수 있게 하는 niceO 체계호출을 생각해보자. 전통적인 모형에서는 초사 
용자만이 우선순위를 높일수 있다. 핵심부는 호출하는 프로쎄스서술자안에 있는 euid 마 
당이 0으로 설정되였는지 검사해야 한다. 그러나 Linux 핵심부는 CAP _ SYS_NICE 라는 
자격을 정의하고있으며 이 자격은 정확히 이런 종류의 연산에 대응한다. 핵심부는 
capableO 함수에 CAP _ SYS_NICE 를 파라메터 로 전달하여 이 기 발값을 검 사한다. 이 
호출방법은 핵심부코드에 추가된《호환성해킹》덕분에 동작한다. 

프로쎄 스가 euid 와 fsuid 마당은 0으로 설정할 때 마다 핵 심부는 모든 검 사가 성 공하 
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도록 모든 프로쎄스자격을 설정한다. 프로쎄스가 euid 와 fuid 마당을 프로쎄스소유자의 
실제 UID 로 재설정하면 핵심부는 프로쎄스서술자의 keep_capabili 仕 es 기발을 검사하고 
기 발이 설정 되 여있으면 모든 자격 을 제 거 한다. 프로쎄 스는 Linux 고유의 prctlO 체 계 호 
출을 사용하여 keep_capabilities 기발을 설정 하거 나 지울수 있다. 

4. 명령행 인자와 쉴환경 

사용자가 명령을 입력하면 적재된 프로그람은 요구를 만족시키기 위해 헬에서 명령 
행 인자를 얻는다. 례를 들어 사용자가 /usr/bin 등록부파일의 전체 목록을 보려고 다음 
명령을 입력하였다고 하자. 

$ Is 1 /usr/bin 

월프로쎄스는 이 명령을 실행하기 위해 새로운 프로쎄스를 생성한다. 이 새로운 프 
로쎄스는 /bin/ls 실행과일을 적재한다. 이 과정에서 월에서 물려받은 실행문맥대부분을 
잃게 되지만 독립된 3 개 인자 Is, -1, /usr/bin 은 남는다. 일반적으로 새로운 프로쎄 
스는 인자를 임의의 수만큼 받을수 있다. 

명령행인자를 전달하는 규약은 어떤 고급언어를 사용했는가에 따라 다르다. C 언어 
에서 프로그람의 main () 함수는 프로그람에 전달된 인자가 몇개인지 나타태는 옹근수와 
문자렬지 적 자배 럴의 주소를 파라메터 로 받는다. 다음은 이 표준을 형 식 화한것 이 다. 

int main (int argc, char *argv []) 

앞에 있는 실례로 돌아가서 /bin/ls 프로그람을 호출하면 argc 에는 3 이 들어가고 
argv [이은 Is 문자렬을 가리킨다. 또한 argv[l] 은 1 문자렬을 가리키고 argv[2] 는 
/usr/bin 문자렬을 가리킨다. argv 배럴의 끝은 언제나 null 지적자로 표시되므로 
argv [3] 에는 NULL 이 들어 간다. 

C 언어 에서 환경 변수를 포함하고있는 파라메터 를 main () 함수의 세 번째 파라메터 로 
전달할수 있 다. 이 파라메터 는 프로쎄 스의 실 행 문맥 를 변경 하거 나 사용자나 다른 프로쎄 
스에 정보를 전달하거나 프로쎄스가 execveO 체계 호출과정에서 정보를 전달하기 위 해 
사용할수 있다. 

환경변수를 리용하려면 mainO 함수를 다음과 같이 선언해야 한다. 

int main (int argc, char *argv [], char *envp []) 

envp 파라메터는 다음과 같은 형 식의 환경문자렬에 대 한 지적 자의 배 럴을 가러 킨다. 

VAR_NAME=something 

여기서 VAR_NAME 은 환경변수의 이름을 나타내고 구분자 = 뒤에 있는 문자렬은 변 
수에 실제로 할당된 값을 나타낸다. envp 배럴의 끝은 argv 배렬처럼 null 지적자로 표 
시된 다. 

envp 배렬의 주소는 C 서고의 environ 대 역변수에도 보관된다. 

명령행인자와 환경변수문자렬은 사용자방식탄창에서 되돌이주소 바로 앞에 위치한 
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다. (《 파라메터 전달》참고) 사용자방식탄창의 바닥위 치 는 그림 8-7 에서 볼수 있다. 

환경변수는 0인 긴옹근수 (long integer ) 바로 다음에 오는 탄창의 바닥근처에 위 
치한다. 



NULL 


환경 변수 문자렬 


卜 

명령행인자 

프로그람 
해석프로그람 

- envp[] 


卜 

一 argv[ ] 


argc 

되돌이 주소 



PAGE_OFFSET 

envend 

envstart 

argend 

argstart 


&envp[0] 


&argv[0] 

startstack 


탄창의 제 일웃자리 위 치 (esp) 


그림 8-7. 사용자방식탄창의 바닥위치 


5. 서 고 

각 고급언어의 원천코드파일은 여러 단계를 거처서 목적파일 (object file ) 로 바권다. 
목적 파일은 고급언어명령에 대응하는 기호언어명령어코드를 포함한다 . 목적파일은 원천 
코드파일외부의 (서고나 동일한 프로그람의 다른 원천코드파일에 있는 함수 같은) 대역기 
호이름에 대응하는 선형주소를 포함하지 않으므로 실행할수 없다. 이와 같은 주소할당 
또는 주소해 석 ( resolution ) 은 련결프로그람 ( linker ) 이 수행 하는데 프로그람의 모든 목 
적파일을 모아서 실행파일을 생성한다. 또한 련결프로그람은 프로그람에서 사용하는 서 
고함수를 분석하고 뒤에서 설명하는 방식으로 실행파일에 함수를 불인다. 

아주 간단한 프로그람을 포함해서 모든 프로그람이 C 서고를 사용한다. 례를 들어 
다음과 같이 한 행 인 C 프로그람을 보자. 
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void main (void) {} 

비록 이 프로그람은 아무일도 하지 않지만 실행환경을 설정 하기 위 해(뒤 에 나오는 
《 exec 계렬함수》참고) 그리고 프로그람이 완료한 다음 프로쎄스를 제거하기 위해서 많 
은 작업 이 필요하다. (3 장에 있는《 프로쎄스끝내기》참고) 특히 C 콤파일 러는 mainO 함 
수완료부분의 목적 코드에 exit () 함수호출을 추가한다. 

3절에서 프로그람이 보통 C 서고에 있는 래퍼루린을 통해 체계호출을 실행한다는 사 
실을 보았다. 이것은 C 콤파일러의 경우도 마찬가지이다. 프로그람의 문장을 를파일하여 
생성한 코드를 포함할뿐만아니 라 어떤 실행파일 이든 사용자방식프로쎄 스와 핵 심부의 호 
상작용을 처리하는《접착코드 (glue code )》 를 포함한다. 일부접착코드는 C 서고에 보 
관되 여 있 다. 

Unix 체계에는 C 서고외에도 다른 많은 함수서고가 있다. 기본적인 Linux 체계에도 
서로 다른 서고가 50개이상 있다. 이중 일부만 보아도 수학서고 libm 에는 실수연산을 
위한 고급함수가 있으며 XII 서고 libXll 에는 XII 원도우체계의 도형대면부를 위한 기 
본적인 저수준함수를 모아놓았다. 

전통적인 Unix 체계의 실행파일은 정적서고 (static Ubrary) 를 기반으로 한다. 즉 
련결프로그람이 생성 한 실행파일에 원본프로그람의 코드뿐만아니 라 프로그람이 참조하는 
서고함수의 코드까지 들어간다는 사실을 의미한다. 정적서고의 큰 부족점은 디스크에서 
많은 공간을 차지한다는 점이다. 실제로 정적으로 련결된 실행파일은 서고코드의 일부를 
복제 한다. 

최근의 Unix 체계는 공유서고 (shared library ) 를 사용한다. 실행파일은 서고목적 
코드를 포함하지 않고 서고이름을 가리키는 정 보만 포함한다. 프로그람을 실행 하려 고 기 
억기에 적재 하면 실행 파일안에 들어 있는 서고이름을 분석하고 체계등록부나무에서 서고 
를 찾아서 요구한 코드를 실행중인 프로쎄스가 사용할수 있게 한다. 프로쎄스는 
dlopenO 서고함수를 리용하여 실행시간에 추가적인 공유서고를 적재할수도 있다. 

공유서 고는 파일기 억기배 치를 제 공하는 체계 에서는 프로그람을 실행하는데 필요한 
주기억기의 량을 감소시키 므로 특히 유용하다. 프로그람해 석프로그람이 어 떤 공유서고를 
프로쎄스에 련결해야 할 때 목적코드를 복사하지 않고 단지 서고파일의 관련부분을 프로 
쎄스의 주소공간에 기억기배치한다. 이렇게 함으로써 서고의 기계어코드를 포함하는 페 
지틀을 같은 코드를 사용하는 모든 프로쎄스사이 에서 공유한다. 

공유서고 역시 부족점은 있다. 대개 동적으로 련결된 프로그람을 시작하는데 걸리는 
시간이 정적으로 련결된 프로그람의 시작시간에 비해 훨씬 길다. 그리고 동적으로 련결 
된 프로그람은 같은 서고의 다른 판본을 포함한 체계에서 제대로 동작하지 않을수도 있 
으므로 정적련결보다 이식성이 떨어진다. 

사용자는 언제나 프로그람을 정적으로 련결하도록 요구할수 있다. 례를 들어 GCC 
콤파일 러 는 sta 社 c 선택 항목을 제 공하여 련결 프로그람이 공유서 고대 신 정 적서 고를 사용 
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하게 할수 있다. 

6. 프로그람토막과 프로쎄스기 억기 령 역 


Unix 프로그람의 선형주소공간은(론리적인 관점으로 볼 때) 이전부터 토막이라는 
몇개의 선형주소구간으로 나뉘 어있었다. 

본문토막 

실행코드를 포함한다. 

초기화된 자료토막 

초기화된 자료를 포함한다. 즉 정적변수와 대역변수의 초기값을 실행파일에 보관한 
다. (프로 그람은 시작할 때 해당 값을 알아야 하기때문이다.) 

초기화되지 않은 자료토막 

초기화되지 않은 자료를 포함한다. 즉 실행파일에 초기화값을 보관하지 않은 모든 
대역변수를 보관한다.(프로그람이 참조하기 전에 값을 설정해야 하기때문이다.) 력사적 
인 리유로 bss 토막라고도 부론다. 

탄창토막 

반환주소, 파라메터, 실행하는 함수의 국부변수 등을 담은 프로그람탄창을 포함한다. 

각 mm _ struct 기억기서술자는 (3 장의 《기억기서술자》참고) 프로쎄스의 특정기억 
기령역의 역할을 나타내는 다음과 갈은 마당을 포함한다. 

start _ code , end_code 

프로그람원본코드 즉 실행파일의 코드를 포함하는 기억기령역의 시작과 끝 선형주소 
를 보관한다. 본문토막은 공유서고를 포함하지만 실행가능한 파일을 포함하지 않으므로 
이 마당이 나타내는 기억기령역은 본문토막의 부분집합하다. 

start _ data , end_data 

실행파일에 지정된것처럼 프로그람원본자료를 포함하는 기억기령역의 시작과 끝 선 
형주소를 보관한다. 이 마당은 자료토막에 대응하는 기억기령역을 대략적으로 나타낸다. 
실제로 start _ data 는 언제나 end_code 바로 다음에 오는 첫번째 페지주소가 되므로 이 
마당을 사용하지는 않지만 end _ data 마당은 사용한다. 

start _ brk , brk 

동적으로 할당된 프로쎄스의 기억기령역을 포함한 기억기령역의 시작과 끝 선형주소 
를 보관한다. (3 장의 《동적기억관리》참고) 이 기억기령역을 동적기억기 ( heap ) 라고 부 
르기도 한다. 

start_stack 

mainO 의 되돌이주소 바로 우에 있는 주소를 보관한다. 그림 8-7 을 보면 웃자리주 
소는 예 약되 여 있 다. (탄창은 아래 방향으로 증가한다. ) 
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arg_start, arg_end 

명령행인자를 포함하는 탄창부분의 시작과 끝 주소를 보관한다. 

env_start, env_end 

환경변수문자렬을 포함하는 탄창부분의 시작과 끝 주소를 보관한다. 

각 공유서 고는 우의 목록과 다른 기 억 기 령 역 에 배 치 되 므로 공유서 고와 파일 기 억 기 배 
치는 프로그람토막에 기초한 프로쎄스의 주소공간구분을 무의미하게 만드는 측면이 있다. 

이제 간단한 례를 사용하여 Linux 핵심부가 공유서고를 프로쎄스의 주소공간에 어 
떻 게 배 치 하는지 살펴 보자. 사용자방식 주소공간을 OxOOOOOOOO-Oxbfffffff 까지 가정 한 
다. 

조작체계의 바깥계층을 구현하는 모든 프로쎄스를 생성하고 활동을 감시하는 (3 장의 
《 핵심부스레드》참고) /sbin/init 프로그람을 살펴보자. 표 8-16 에서는 init 프로쎄스에 
대응하는 기억기령역을 보여준다 . ( 이 정보는 /proc/l/maps 파일에서 얻은것 이 다. 물론 
init 프로그람의 판본과 콤파일되고 련결된 방식에 따라 아래표와 다른 표를 볼수도 있 
다 .) 렬거된 모든 령역은 비공개 (private) 기억기배치를 통해 구현되였다. (표 8-13 에서 
권한렬에 있는 p 문자) 이것은 놀랄 일이 아니다. 이 기억기령역들은 단지 프로쎄스에 
자료를 제공하기 위해 존재한다. 프로쎄스는 명령을 실행하는 도중에 이 기억기령역들의 
내용을 수정하지만 이와 관련한 디스크우에 있는 파일은 바뀌지 않고 남아있다. 이것은 
비공개기 억기배 치의 동작방식과 일치 한다. 


표 8-16. init 프로쎄스의 기 억기령역 


주소범위 

권한 

배치된 과일 

0x08048000-0x0804cf 

ff 

r-xp 

/sbin/init 의 편위 0 

0x0804d000-0x0804cf 

ff 

rw-p 

/sbin/init 의 편위 0x4000 

0x0804e000-0x0804ef 

ff 

rwxp 

배치된 파일 없음 

0x40000000-0x40014f 

ff 

r-xp 

/lib/ld-2.2.3.so 의 편위 0 

0x40015000-0x40015f 

ff 

rw-p 

/lib/ld-2.2.3.so 의 편위 0x14 

000 

0x40016000-0x40016f 

ff 

rw-p 

배치된 파일 없음 

0x40020000-0x40126f 

r-xp 

/lib/libc.so.2.2.3 의 편위 0 


760 


透資邊 @資變©^ 












체 8 장. 


ff 



0 x 40127000- 

0 x 4012 cfff 

rw~p 

/1^/1^(：.30.2.2.3의 편위 

0 x 10600 

0 x 4012 d 000- 

0 x 40130 社 f 

rw~p 

배치된 파일 없음 

OxbfffdOOO-Oxbfffffff 

rwxp 

배치된 파일 없음 


0 x 8048000 에서 시작하는 기억기령역은 / sbin/init 파일의 0-20479 B 범위에 해당하 
는 기 억 기 배 치 이 다. (/ proc / l / maps 파일 에 서 는 령 역 의 시 작과 끝만 얻 을수 있지 만 이 로 
부터 령역의 크기를 쉽게 계산할수 있다.) 령역에 지정된 권한은 실행가능하고(목적코드 
를 포함하고있음) 읽기전용이며(명령은 실행중에 바뀌지 않으므로 쓸수 없음) 비공개이 
다. 따라서 이 령역이 프로그람의 본문토막를 배치함을 추측할수 있다. 

0 x 804 d 000 에서 시작하는 기억기령역은 / sbin/init 파일의 16384( 표 8-13 의 
0 x 4000) - 20479 B 범위에 해당하는 기 억기배치 이다. 이 령역에 쓰기권한이 지정되여 있 
으므로 프로그람의 자료토막를 배 치한다고 추측할수 있다. 

다음의 0 x 804 e 000 부터 시작하는 한 페지크기 기억기령역은 anonymous 로서 어떤 
파일과도 련관되지 않으며 init 의 bss 토막에 배치된다. 이와 비숫하게 0 x 40000000, 
0 x 40015000, 0 x 40016000 부터 시작하는 다음의 세 기억기령역은 각각 

/ lib / ld .2.2.3. so 서고의 본문토막，자료토막, bss 토막에 대응한다. 

실제 로 이 서 고는 ELF 공유서 고에 대 한 프로그람해 석 프로그람이다. 프로그람해 석 프 
로그람은 절대 단독으로 실행되지 않으며 언제나 다른 프로그람을 실행하는 프로쎄스의 
주소공간내부에 기억기배치된다. 이 체계에서 C 서고는 / Ub / libc .2.2.3. so 파일에 보관 
되여있다. C 서고의 본문토막, 자료토막, bss 토막은 0 x 40020000 에서 시작하는 다음 세 
기억기령역에 배치된다. 비공개령역에 포함된 폐지틀은《쓰기복사》기구를 사용하여 바 
뀌지 않으면 여 러 프로쎄스가 공유할수 있다. 본문토막은 읽기전용이므로 현재 실행중인 
대부분의 프로쎄 스는 C 서 고의 실행코드를 포함하는 폐 지 틀을 공유한다. (정적으로 련결 
된 실행파일 제외) 

끝으로 OxbfffdOOO - Oxbfffff 打범위에 있는 마지막 anonymous 기억 기령 역은 사 
용자방식 탄창과 련관된다. 3장의 《 폐 지 절환례 외 조종기》에 서 설명 한것 처 럼 탄창은 필 
요할 때마다 자동적으로 낮은 주소방향으로 증가한다. 

7. 실행추적 

실행추적 (execution tracing ) 은 프로그람이 다른 프로그람의 실행을 감시하도록 
하는 기술이다. 추적당하는 프로그람은 신호를 받을 때까지 한 단계씩 단계별로 실행되 
거 나 혹은 체 계 호출을 실행 할 때까지 실행 될수 있다. 실행추적은 중단점 ( breakpoint ) 
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삽입과 실행중 변수에 호출하는 기술과 함께 오유수정기에서 주로 사용한다. 여기서는 
오유수정기의 동작이 아닌 핵심부가 실행추적을 어떻게 지원하는지에 초점을 맞춘다. 

Linux 에서는 ptraceO 체계호출을 통해 실행추적을 실행한다. 이 체계호출은 표 8- 
14에 있는 명 령 어를 처러 할수 있다. CAP _ SYS _ PTRACE 자격 기 발이 설정된 프로쎄 스 
는 체 계 에서 init 이외의 모든 프로쎄스를 추적할수 있다. 반대 로 CAP _ SYS_PTRACE 
자격 이 없는 프로쎄 스 모는 P 와 소유자가 같은 프로쎄 스만 추적할수 있 다. 그러 고 동시 
에 두 프로쎄 스가 한 프로쎄 스를 추적할수 없 다. 


표 8-17. ptrace 명령어 


명령어 

설명 

PTRACE TRACEME 

현재프로쎄스에 대 해 실행추적을 시작한다. 

PTRACE PEEKTEXT 

본문토막에서 32 bit 값을 읽는다. 

PTRACE PEEKDATA 

자료토막에서 32 bit 값을 읽는다. 

PTRACE PEEKUSR 

CPU 의 일반, 오유수정등록기를 읽는다. 

PTRACE POKETEXT 

본문토막에 32 bit 값을 쓴다. 

PTRACE_OLDSETOPTI 

◦NS 

PTRACE _ SETOPTIONS 에 동등한 구성방식종 
속명령 

PTRACE POKEDATA 

자료토막에 32 bit 값을 쓴다. 

PTRACE POKEUSR 

CPU 의 일반, 오유수정등록기를 쓴다. 

PTRACE CONT 

실행을 계속한다. 

PTRACE KILL 

추적당한 프로쎄 스를 완료한다. 

PTRACE_GETSIGINFO 

추적당한 프로쎄스에 넘겨준 마지막신호에 대한 
정보를 얻는다. 

PTRACE_SETSIGINFO 

추적당한 프로쎄스에 넘겨준 마지막신호에 대한 
정보를 꾸며낸다. 

PTRACE SINGLESTEP 

단일 기호언어명령어에 대해 계속 실행한다. 

PTRACE GETREGS 

CPU 의 특권등록기를 읽는다. 

PRRACE SETREGS 

CPU 의 특권등록기를 쓴다. 

PTRACE GETFPREGS 

실수등록기를 읽는다. 

PTRACE SETFPREGS 

실수등록기를 쓴다. 

PTRACE GETFPXREGS 

MMX 와 XMM 등록기를 읽는다. 

PTRACE SETFPXREGS 

MMX 와 XMM 등록기를 쓴다. 

PTRACE ATTACH 

다른 프로쎄스에 대해 실행추적을 시작한다. 

PTRACE_DETACH 

실행추적을 완료한다. 
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PTRACE _ GET_THREA 

추적 당한 프로쎄 스의 러 익 ( behalf ) 에 대 한 스레 

D—AREA 

드국부저장 ( TLS ) 령역을 엄는다. 

PTRACE _ SET_THREAD 

추적당한 프로쎄스의 러익에 대한 스레드국부저장 

AREA 

령역을 설정한다. 

PTRACE_GETEVENTM 

추적당한 프로쎄스로부터 추가자료를 얻는다. 

SG 

(례 : 새로 호출된 프로쎄스의 PID ) 

PTRACE SETOPTIONS 

ptraceO 동작을 수정한다. 

PTRACE_SYSALL 

다음체 계 호출경 계 까지 실행 을 계 속한다. 


ptraceO 체계호출은 추적당한 프로쎄스의 서술자내에 있는 p _ pptr 마당을 수정하여 
추적하는 프로쎄스를 가리키도록 한다. 그 결과 추적하는 프로쎄스는 추적당하는 프로쎄 
스의 실제적인 부모가 된다. 실행추적을 완료하면 즉 PTRACE_DETACH 명령을 주어 
ptraceO 를 호출하면 체계호출은 p _ pptr 을 p _ opptr 값으로 설정한다. 즉 추적당한 프 
로쎄스의 원래부모로 설정 한다. (3 장의 《프로쎄스사이 친족관계》참고) 

추적당한 프로그람에 여러 감시사건을 련관지을수 있다. 

• 한 기호언어명령어의 실행이 끝남 

■ 체계호줄에 들어감 

■ 체계호출에서 빠져나옴 

• 신호를 수신함 

감시 중인 사건 이 발생하면 추적하는 프로그람을 중단하고 SIGCHLD 신호를 부모에 
전달한다. 부모프로쎄스가 자식을 계속 실행하고싶으면 감시하려는 사건종류에 따라 
PTRACE _ CONT , PTRACE _ SINGLESTEP , PTRACE _ SYSCALL 명령어 중 하나를 
사용할수 있다. 

PTRACE _ CONT 명 령 어는 실행 을 재 개 한다. 자식은 다른 신호를 받을 때까지 실행 
을 계속한다. 

이 종류의 추적은 프로쎄스서술자의 PF _ PTRACED 기발로 구현하며 do _ signal () 
함수가 검사한다. (3 장 3절의 《신호받기》참고) 

PTRACE _ SINGLESTEP 명 령 어는 자식프로쎄스가 다음기 호언어명 령 어를 실행 하고 
난 뒤 다시 중단하게 한다. 이 종류의 추적은 Intel x 86 기반기계에서 eflags 등록기의 
TF 함정 기 발을 사용하여 구현한다. 이 기 발을 1로 설정하면 《 오유수정》례 외 가 모든 
기 호언어 명 령 다음에 발생한다. 대 응하는 례 외 조종기 는 기 발을 해제 하고 현재 프로쎄 스를 
중단한다. 그리고 부모에 SIGCHLD 신호를 전송한다. TF 기발을 설정하는 연산은 특권 
을 소유한 연산이 아니며 사용자방식프로쎄스는 ptraceO 체계호출 없이도 프로그람을 
한 단계 씩 실 행할수 있 다. 핵 심 부는 프로쎄 스서 술자의 PF _ DTRACE 기 발을 검 사하여 
자식프로쎄스가 ptraceO 를 통해 한 단계씩 실행되는지 추적한다. 
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PTRACE _ SYSCALL 명 령 은 추적 당하는 프로쎄 스가 체 계 호출을 진행 할 때 까지 계 
속 실 행하게 한다. 프로쎄 스는 두번 중단된 다. 첫 번째 는 체 계호출을 시 작할 때 두번째 는 
체 계 호출을 완료할 때 이 다. 이 런 추적 은 프로쎄 스서 술자내 의 PF _ TRACESYS 기 발로 
구현하며 기호언어로 구현한 system _ call () 함수가 검사한다. (3 절의 《 system _ call () 
함수》참고) 

Intel 펜리움처리기의 오유수정자격을 사용하여 프로쎄스를 추적할수도 있다. 례를 
들어 부모프로쎄스가 PTRACE _ POKEUSR 명령을 사용하여 자식 프로쎄스의 drO , … 
dr 7 오유수정등록기값을 설정할수 있다. 수신된 사건이 발생하면 CPU 는 오유수정례외 
를 발생 시킨다. 

례 외 조종기 는 추적당한 프로쎄 스를 보류하고 SIGCHLD 신호를 부모프로쎄 스에 보낸 
다. 


8. 실행파일형식 


공식적 인 : Linux 의 실행파일형식은 ELF(Executalbe and Linking Format ) 이다. 
이 형식은 Unix 체계연구소 ( USL ) 에서 개발했으며 Unix 계렬에서 가장 많이 사용한다. 
System V Release 4( SVR 4) 와 SUN 의 Solaris 2 등 잘 알려진 Unix 조작체계에서 
ELF 를 기 본실 행파일 형 식 으로 사용한다. 

이전 Linux 판본에서 는 a . out (Assembler OUTput Format ) 라는 다른 형식을 지원 
하였다. 실제로 Unix 계렬에는 a . out 형식이 여러 종류가 있다. 그러나 ELF 가 훨씬 더 
실용적이므로 요즘은 이 형식을 잘 사용하지 않는다. 

Linux 는 다른 여 러 형식의 실행파일을 지 원한다. 이를 통해 MS - DOS 의 EXE 프로 
그람이 나 Unix BSD 의 COFF 실 행파일과 같이 다른 조작체 계 용으로 콤파일 한 프로그람 
을 실행 할수 있다. 그러 나 bash 스크립트와 같은 몇 가지 실행 파일형식은 기 반에 독립적 
이다. 

실행파일의 형식은 limix _ binfmt 류형의 객체로 나타내는데 핵심적으로 3가지 메쏘 
드를 제공한다. 

load_binary 

실행파일에 보관된 정보를 읽어서 현재프로쎄스를 위한 새로운 실행환경을 설정한다. 

load_shlib 

이미 실행중인 프로쎄스에 공유서고를 동적으로 결합하는데 사용한다. uselibO 체 
계 호출을 통해 이루어진다. 

core_dump 

현재프로쎄스의 실행문맥를 core 라는 파일에 보관한다. 이 파일의 형식은 실행중인 
프로그람의 실행류형에 따라 다른데 프로쎄스가 기본동작이 《 dump 》 로 설정된 신호를 
받으면 이 파일을 생성 한다. (3 장《신호를 받았을 때의 동작》참고) 
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모든 linux _ binfmt 객체는 단방향련결목록에 포함되고 목록에서 첫 번째 요소의 주 
소는 formats 변수에 보관된다. register_binfmt () 와 unregister _ binfmt () 함수를 호출 
하여 목록에 요소를 삽입 하거 나 제 거 할수 있 다. 핵 심부에 콤파일되 여있는 각 실행 파일형 
식에 대해서는 체계시작과정에 register _ binfmt () 함수를 실행한다. 이 함수는 새로운 
실행파일형식을 구현하는 모둘을 적재할 때 사용하며 모둘을 부리을 때에는 
unregister _ binfmt () 함수를 실행 한다. 

formats 목록의 마지막항목은 언제나 해석된 스크립트 (interpreted script ) 를 위해 
실행가능한 파일형식을 설명하는 객체이다. 이 형식은 load _ binary 메쏘드만 정의한다. 
대응하는 do _ load _ script () 함수는 실행파일이 이라는 두 문자로 시작하는지 검사한다. 
만일 그렇 다면 첫번째 행의 나머지를 다른 실행 가능한 파일의 경로명으로 해석 하고 파라 
메터에 스크립트파일명을 전달하여 실행하려 한다. 스크립트 파일이 #!문자로 시작하지 
않더라도 사용자의 쉴이 인식할수 있는 언어로 작성한 파일의 경우에는 실행할수 있다. 
이 경우 사용자가 명 령을 입 력하는 월에서 스크립트를 해석 하며 핵심부는 직접 관여 하지 
않는다. 

Linux 는 사용자가 독자적인 실행파일형식을 등록할수 있게 한다. 파일의 처음 
128 B 에 보관된 식별번호나 파일류형을 식별하는 파일확장자를 사용하여 각 형식을 알아 
낸다. 례를 들어 MS - DOS 의 확장자는 파일명에서 점 (.) 으로 구분되는 세 문자로 이루 
어진다. 

. exe 확장자는 실행프로그람을 나타내고 . bat 확장자는 월 스크립트를 나타낸다. 
각각의 독자적인 형식에 해석프로그람이 련관되며 핵심부는 원래의 독자적인 실행파 
일명을 파라메터 로 넘겨 이 해 석프로그람을 자동적 으로 실행 한다. 이 기구는 스크립트방 
식과 류사하지만 독자적인 형식에 아무런 제한을 하지 않으므로 더욱 강력하다. 

새로운 형식을 등록하려면 사용자는 / proc / sys / fs / binfmt_misc 
/ register 파일에 다음과 같은 형식의 문자렬을 쓴다. 

: name : type : offset : string : mask : interpreter : 

각 마당의 의미는 다음과 갈다. 
name 

새로운 형식에 대한 식별자 
type 

인식류형 (보은 식별번호，묘는 확장자) 
offset 

파일내 부식 별 번 호의 시 작편위 
string 

식 별번호안이 나 확장자안에 서 일치 하는 바이트렬 
mask 
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string 안에 있는 일부비 트를 제 거 (mask out) 하기 위 한 문자렬 

interpreter 

프로그람해석기의 전체 경로명 

flags 

프로그람해석기가 의존해야 할 방식을 조종하는 몇가지항목기발 

례를 들어 초사용자가 다음 명령을 실행하면 핵심부가 MS Windows 의 실행파일형 
식 을 인식할수 있게 한다. 

$ echo ‘: DOSWin:M: ◦: MZ:0xff:/usr/local/bin/wine: ’ >\ 

/ proc/sys/fs/binfmt_misc/register 

Windows 실행파일은 처음 두 바이트에 보고라는 식별번호를 가지고 

/usr/local/bin/wine 이라는 프로그람해석기가 실행한다. 

9. 실행도메인 

Linux 의 훌륭한 자격으로 다른 조작체계용으로 롬파일한 파일을 실행할수 있는 능 
력이 있다. 물론 이것은 파일에 핵심부가 실행중인것과 갈은 름퓨터기본방식에 대한 기 
계어코드가 들어있을 때에만 가능하다. 이와 같은 《 외래 (foreign) 》프로그람에 대해 
다음과 같은 두가지를 지원한다. 

• 모방실행 : POSIX 를 준수하지 않는 체계호출을 포함한 프로그람을 실행하기 위 
해 사용한다. 

• 직접실행 : 모든 체계호출이 POSIX 를 준수하는 프로그람일 경우에 사용할수 있다. 

마이크로소프트의 MS-DOS 와 Windows 프로그람은 모방실행방식으로 처 리된다. 

이 프로그람은 Linux 가 인식 하지 못하는 API 를 포함하므로 직 접 실 행할수 없 다. 그 
대 신 DOSemu 또는 Wine 과 같은 모방기 를 호출하여 각 API 호출을 모방하는 래 퍼 함수 
호출로 변환하고 함수호출은 기존의 Linux 체계호출을 사용한다. 모방기는 대부분 사용 
자방식응용프로그람으로 구현하므로 더 다투지 않는다. 

반면에 Linux 이외의 조작체계에서 콤파일한 POSIX 준수프로그람은 POSIX 조작체 
계 들이 류사한 API 를 제 공하기 때 문에 큰 문제 없 이 실 행 할수 있 다. (실제 로 API 가 동일 
해 야 하지만 항상 그런것은 아니 다.) 핵심부가 조정해 야 하는 작은 차이들은 체계호출을 
어떻게 호출하는지， 여러 신호에 어떤 번호가 붙어있는지 등이다. 이 정보들은 
exec_domain 형 실행 도메 인서 술자 (exection domain descriptor) 에 보관된다. 

프로쎄스가 자신의 실행도메인을 지정하기 위해서는 서술자의 personality 마당을 
설정하고 exec_domain 마당안에 대응하는 exec_domain 자료구조의 주소를 보관한다. 

프로쎄 스는 personality () 라는 체계호출을 실행하여 자신의 특성을 변경할수 있다. 

체 계 호출의 파라메터 에 사용하는 전형 적 인 값은 표 8-15 와 같다. 프로그람작성 자 
가 직접 자신의 프로그람특성을 바꾸리라 생각하지 않으므로 C 서고에는 대응하는 래퍼 


766 


透資© @資變©^ 


別 8 장. 


루린이 없다. 

대신 프로쎄스의 실행 문맥를 설정 하는 접착코드에서 personality () 체계 호출을 실행 
해 야 한다 . ( 《 exec 계 렬 함수》참고) 


a 8-18. Linux 핵심부7 F 지원하는 주요_성 


특 성 

조작 체계 

PER LINUX 

표준실행도메인 

PER _ LINUX _32 BIT 

64 bit 구성방식에서 32 bit 물리주소를 가지고있는 

Linux 

PER LINUX FDPIC 

ELF FDPIC 형식에서 Linux 프로그람 

PER SVR 4 

System V Release 4 

PER SVR 3 

System V Release 3 

PER SCOSVR 3 

SCO Unix 판본 3.2 

PER OSR 5 

SCO Open Server Release 5 

PER WYSEV 386 

Unix System V /386 Release 3.2.1 

PERJSCR 4 

Interactive Unix 

PER BSD 

BSD Unix 

PER SUNOS 

Sun OS 

PER XENIX 

Xenix 

PER _ LINUX 32 

64 bit 구성 방식 에서 Linux 32 bit 프로그람의 모의 

(4 GB 사용자방식주소공간을 사용) 

PER _ LINUX 32_3 GB 

64 bit 구성 방식 에서 32 bit 프로그람들의 모의 (3 GB 
사용자방식 주소공간을 사용) 

PER IRIX 32 

32 bit SGI Irix -5 

PERJRIXN 32 

32 bit SGI Irix -6 

PER IRIX 64 

64 bit SGI Irix -6 

PER RISCOS 

RISC OS 

PER SOLARIS 

Sun Solaris 

PER UW 7 

Caldera UnixWare 7 

PER OSF 4 

Digital UNIX (Compaq Tru 64 UNIX ) 

PER_HPUX 

Hewlett - Packard 화사의 HP-UX 


10. exec 계렬함수 

Unix 체계는 프로쎄스의 실행문맥를 실행파일이 나타태는 새로운 문맥으로 교체하 
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는 여러 함수를 제공한다. 각 함수의 이름은 exec 로 시작하고 뒤에 한두 글자가 더 붙 
는다. 따라서 이런 부류의 함수를 《 exec 계렬함수》라고 부론다. 

표 8-19 에 서 exec 계 렬 함수를 보여 준다. 이 것 들의 차이 점 은 파라메터 를 해 석 하는 방 
법이다. 


표 8-19. _ exec 겨【렬함수 


함수명 

PATH 람색 

명령행인자 

환경변수배렬 

execl 0 

No 

목록 

No 

execlpO 

Yes 

목록 

No 

execleO 

No 

목록 

Yes 

execv 0 

No 

배렬 

No 

execvpO 

Yes 

배렬 

No 

execveO 

No 

배렬 

Yes 


각 함수의 첫번째 인자는 실행할 파일의 경로명을 나타낸다. 경로명은 절대경로일수 
도 있고 프로세의 현재등록부에서 상대경로일수도 있다. 그리고 이름에 /문자가 없으면 
execlpO 와 execvpO 함수는 실행가능한 파일을 PATH 환경변수가 지정 하는 모든 등록 
부에서 찾는다. 

첫번째 파라메터외 에 execlO , execlpO , execleO 함수는 다양한 추가파라메터를 
포함한다. 각각 새로운 프로그람을 위한 명령행인자를 나타내는 문자렬을 가리킨다. 함 
수명 에 서 문자 1이 의 미 하듯이 파라메터 는 NULL 값으로 끝나는 목록에 정 리 되 여있 다. 

보통 첫번째 명령행인자는 실행가능한 파일명을 복제한다. 반면에 execvO , 
exec vp () , execveO 함수는 명령행인자를 파라메 터 하나로 나타낸다. 함수명의 문자 v 
가 의미 하듯이 파라메터는 명 령행 인자문자렬 을 가리 키는 지적 자의 벡 토르주소이 다. 배 렬 
의 마지 막요소에는 NULL 값을 보관한다. 

execleO 와 execveO 함수는 마지막파라메터로 환경변수문자렬을 가리키는 지적자 
배럴의 주소를 받는다. 배렬의 마지막요소에는 NULL 값을 넣어야 한다. 다른 함수는 
environ 외부대역변수로부터 새로운 프로그람을 위한 환경변수를 리용할수 있다. 이 변 
수는 C 서 고에 정의되 여있다. 

execveO 를 제외한 모든 exec 계렬함수는 execveO 를 사용하여 C 서고에 정의된 
래 퍼 루린 이다. execveO 는 프로그람실 행 을 위 해 Linux 에 서 제 공하는 유일 한 체 계 호출 
이다. 

sys _ execve () 봉사루 린 은 다음과 같은 파라메터 를 받는다. 

• 실행파일의 경로명의 주소(사용자방식주소공간에 있음) 
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- 문자렬 (사용자방식 주소공간)을 가리 키는 지적 자로 구성 된 배렬 (사용자방식 주소공 
간)의 주소배 럴은 NULL 로 끝난다. 각 문자렬은 명 령 행 인자를 나타낸다. 

• 문자렬 (사용자방식 주소공간)을 가리 키 는 지 적 자로 구성 된 배 렬 (사용자방식 주소공 
간)의 주소배렬은 NULL 로 끝난다. 각 문자렬은 NAME=value 형식의 환경변수를 나 
타낸다. 

함수는 실행파일의 경 로명을 새 로 할당한 폐지틀에 복사한다. 그리고 do _ execve () 
함수를 호출하면서 폐지 틀，지적 자 배 럴，사용자방식 등록기 내용을 보관한 핵심부방식 탄 
창의 위 치 등을 가리 키 는 지 적 자를 과라메터 로 전달한다. do _ execve () 는 다음과 같은 
연산을 수행한다. 

1. linux_binprm 자료구조를 정적으로 할당한다. 여기에는 새로운 실행파일에 관련 
된 자료가 들어갈것 이 다. 

2. path _ init (), pa 1; h_walk 와 dentry _ open () 을 호출하여 덴트리객체 , 파일객체 , 
실행파일에 대응하는 색인마디객체를 엄는다. 실패하면 적절한 오유코드를 반환한다. 

3. 색 인마디의 i_writecount 마당을 검사하여 실행가능한 파일이 기록중인지 확인한 
다. 나중에 쓰기호출을 방지하기 위해 이 마당을 1로 보관한다. 

4. prepate _ binprm () 함수를 호출하여 linux_binprin 자료구조를 채 운다. 이 함수 
는 다음과 갈은 연산을 수행한다. 

a . 파일의 호출권한이 실행을 허용하는지 검사한다. 허용하지 않으면 오유코드를 
반환한다. 

b . 실행 파일의 setuid 와 setgid 기발값을 고려 하여 linux _ bin_prm 구조체의 e_uid 
와 e_gid 마당을 설정한다. 이 마당은 각각 유효한 사용자 ID 와 유효한 그롭 ID 를 나타낸 
다. 또한 프로쎄스자격을 검사한다. (앞서 살펴본《 프로쎄스믿음권한과 자격》에서 호 
환성해킹을 설명하였다.) 

c . linux_binprm 구조체의 buf 마당을 실행파일의 처음 128 B 로 채운다. 이 바이트 
에는 실행파일형식의 식별번호와 실행파일을 인식하기 위한 적절한 정보들이 들어있다. 

5. 파일의 경로명，명령행인자，환경변수 문자렬 등을 새로 할당된 폐지틀에 복사한 
다. (결국 이 것 들은 사용자방식주소공간에 배 치 될것 이 다. ) 

6. searcli _ binary_handlerO 함수를 호출한다. 이 함수는 formats 목록을 람색 하고 
linux_binprm 자료구조를 파라메 터 로 하여 각 항목의 load_binary 메 쏘드를 호출한다. 
formats 목록의 탐색은 load_binary 메쏘드가 파일의 실행파일형식을 인식하는데 성공 
하면 즉시 완료한다. 

7. 실행파일형식이 formats 목록에 없으면 할당된 모든 패지틀을 해제하고 
ENOEXEC 오유코드를 반환한다. Linux 는 실행파일형식을 인식할수 없다. 

8. 그렇지 않으면 파일의 실행 파일형식에 대 응하는 load_binary 메 쏘드에 서 얻은 코 
드를 반환한다. 
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실행 파일형 식 에 대 응하는 load _ binary 메 쏘드는 다음과 같은 연산을 실행 한다. (실 
행파일 이 파일기 억기배 치를 허 가하는 파일체 계 에 보관되여있으며 공유서고를 하나 이상 
요구한다고 가정한다.) 

1. 파일의 처음 128 B 에 보관된 식별번호를 검사하여 실행파일형식을 식별한다. 식 
별번호가 일치하지 않으면 NOEXEC 오유코드를 반환한다. 

2. 실행파일의 머리부를 읽는다. 이 머리부는 프로그람의 토막과 필요한 공유서고를 
설 명 한다. 

3. 실행파일에서 프로그람해석기의 경로명을 엄는다. 공유서고의 위치를 찾아 기억 
기에 배치하기 위해 이 경로명을 사용한다. 

4. 프로그람해석기의 덴트리객체(그리고 색 인마디객체와 파일객체)를 얻는다. 

5. 프로그람해석기의 실행권한을 검사한다. 

6. 프로그람해석기의 처음 128 B 를 완충기에 복사한다. 

7. 프로그람해석 기의 류형 에 대 해 일관성검 사를 수행한다. 

8. flush _ old _ exec 0 함수를 호출하여 이전계산에서 사용한 자원의 대부분을 해제 
한다. 이 함수는 다음과 같은 연산을 수행한다. 

，색 신호조종기의 표를 다른 프로쎄스와 공유하고있으면 새로운 표를 할당하 

고 이전표의 사용계수기를 감소시킨다. make _ private _ signals () 함수를 호출하여 수행 
한다. 

W exec _ mmap () 함수를 호출하여 기억기서술자, 모든 기억기령역과 프로쎄 
스와 프로쎄스의 페지표에 할당한 모든 폐지틀을 해제 한다. 

C . 신호조종기 표의 각 신호를 기 본동작으로 다시 설정한다. 

release _ old _ sighals () 와 flush _ signal_handlers 0 함수를 호출하여 수행 한다. 

s . 프로쎄 스서 술자의 comm 마당을 실행 과일경 로이 름으로 설정 한다. 

W * flushahreadO 함수를 호출하여 실수등록기값과 TSS 토막에 보관된 오 

유수정등록기를 지운다. 

y . de _ ttiread () 를 호출하여 프로쎄 스를 이전스레 드그룹에서 분리 한다. (3 장 
의 《 프로쎄 스식 별》참고) 

人. f rush _ old_files 0 함수를 호출하여 프로쎄스서술자의 files - 

> close _ on _ exec 마당에 대응하는 기 발이 설정된 모든 열린 파일을 닫는다. (2 장의 
《프로쎄스관련파일》참고) 

이제 되돌아갈수 없는 지점에 이르렀다. 무엇인가 잘못되였더라도 함수를 이전으로 
되돌릴수 없다. 

9. 프로쎄스의 새로운 특성 즉 프로쎄스서술자의 personality 마당을 설정한다. 

10. 프로쎄스서술자의 PF _ FORKNOEXEC 기발을 지운다. 새로운 프로쎄스가 생성 
( fork ) 되면 설정되고 이 프로쎄스가 새로운 프로그람을 실행하면 지워지는 이 기발은 
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때 8 장. 


프로쎄스계정을 위해 필요하다. 

11. seUip_arg_pages() 함수를 호출하여 프로쎄스의 사용자방식탄창을 위한 새로운 
기억기령역서술자를 할당하고 해당 기억기령역을 프로쎄스의 주소공간으로 추가한다. 
setup_arg_pages() 는 명령행인자와 환경변수문자렬을 포함하는 폐지틀을 새로운 기억 
기령역에 배치한다. 

12. do_mmap() 함수를 호출하여 실행가능한 과일의 본문토막(즉 코드)을 배치하는 
새로운 기억기령역을 생성한다. 일반적으로 실행가능한 코드는 재배치할수 없으므로 기 
억기 령 역의 시작선형 주소는 실행 가능한 파일형 식 에 의존한다. 따라서 함수는 본문토막 
이 특정 한 론리 주소편위 에서 (특정 선형 주소에서 ) 시 작하여 적재될것 이 라고 가정 한다. 
ELF 프로그람은 선형주소 0x8048000 에서 시작하는 선형주소에 적재된다. 

13. do_mmap() 함수를 호출하여 실행파일의 자료토막를 배치하는 새로운 기억기 령 
역 을 생 성 한다. 그런데 실 행 가능한 코드 역 시 자신의 변수를 특정 편위(즉 특정 선형 주 
소)에서 찾을수 있기를 기대하므로 기억기령역의 시작선형주소는 실행파일형식에 의존 
한다. ELF 프로그람의 경우 자료토막은 본문토막 바로 다음에 적재된다. 

14. 실행가능파일의 또 다른 특수한 토막를 위해 추가기 억기 령역을 할당한다. 일반 
적으로는 아무것도 없다. 

15. 프로그람해석기를 적재하는 함수를 호출한다. 프로그람해석기가 ELF 실행파일 
이면 함수는 load_elf_interp() 이다. 이 함수는 보통 11 에서 13 단계까지 연산을 수행 
하지만 파일이 아닌 프로그람해석기를 실행한다. 프로그람해석기의 본문과 자료를 포함 
하는 기 억기 령 역의 시 작주소는 프로그람자신이 지정한다. 그러 나 그 주소는 실행할 파 
일의 본문과 자료를 배치할 기억기령역과의 층돌을 피하려고 매우 높은장소(보통 
0x40000000) 에 위 치 한다. (앞서 살펴 본《 프로그람토막과 프로쎄 스기 억 기 령 역》참고) 

16. 파일서술자의 binfmt 마당에 실행파일형식의 linux_binfmt 객체의 주소를 보관 
한다. 

17. 프로쎄스의 새로운 자격을 결정한다. 

18. 프로그람해 석 기 표를 생 성 하여 명 령 행 인자와 환경변수문자렬 의 지 적 자배 렬 사이 
에 있는 사용자방식 탄창에 보관한다. (그림 8-7 참고) 

19. 프로쎄스의 기억기서술자의 start_code, end_code, end_data, start_brk, 
start_stack 마당을 설정 한다. 

20. do_brk() 함수를 호출하여 프로그람의 bss 토막을 배치하는 새로운 
anonymous 기 억기령역을 생성한다. (프로쎄스가 변수에 기록하면 요구폐지화을 개시하 
고 폐지틀을 할당한다.) 실행프로그람이 련결될 때 이 기억기령역의 크기를 계산한다. 
일반적으로 프로그람의 실행가능코드는 재배치할수 없으므로 기억기령역의 초기선형주 
소를 반드시 명시해야 한다. ELF 프로그람에서는 bss 토막이 data 토막 바로 다음에 적재 
편다. 
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21. start _ thread () 마크로를 호출하여 핵심부방식탄창에 보관된 사용자방식등록기 
eip 와 esp 값을 변경하여 각각 프로그람해석기의 진입지점과 새로운 사용자방식탄창의 
맨우를 가리키도록 한다. 

22. 프로쎄스가 추적당하고있으면 프로쎄 스에 SIGTRAP 신호를 보낸다. 

23. 0을 반환한다. (성 공) 

execveO 체계호출을 마치고 호출한 프로쎄스가 사용자방식에서 실행을 계속하게 되 
면 실행문맥이 크게 바권다. 체계호출을 진행한 코드는 더는 존재하지 않는다. 

이런 의미에서 execveO 는 절대성공하면서 되돌이하지 못한다고 할수 있다. 

대신 새로운 프로그람을 프로쎄스의 주소공간에 배 치하여 실행 한다. 

그러나 프로그람해석기는 공유서고의 적재을 처려해야 하므로 아직 새로운 프로그람 
을 실행할수 없다. 실행파일이 정적으로 련결되여 공유서고를 요구하지 않으면 아주 간 
단하다. load_binary 메쏘드는 프로그람의 text , data , bss , stack 토막을 프로쎄스기 
억 기 령 역 에 배 치 하고 사용자방식 eip 등록기 를 새 토운 프로그람의 진 입 지 점 으로 설 정 한다. 

비록 프로그람해석기가 사용자방식에서 실행하지만 어떻게 동작하는지 간단히 살펴 
보자. 첫번째 작업은 핵심부가 환경변수문자렬과 arg_start 를 가리키는 지적자배렬사이 
에 있는 사용자방식탄창에 보관한 정보에서 시작하여 자신을 위한 기본적인 실행문맥을 
설정한다. 그리고 프로그람해석기는 실행될 프로그람을 검사하여 어떤 공유서고를 적재 
할것인지，각 공유서고안에 어떤 함수를 요구할것인지 결정한다. 그러고 해석프로그람은 
mmap () 체계호출을 진행하여 실제로 프로그람이 사용한 서고함수를 보관할 페지를 배치 
하는 기 억기 령 역을 생성 한다. 다음으로 해석 프로그람은 서고의 기 억기 령역의 선형주소에 
따라 공유서 고의 기호에 대한 모든 참조를 갱신한다. 마지막으로 프로그람해석기는 실행 
된 프로그람의 기본진입점으로 이동하면서 자신의 실행을 완료한다. 이제부터 프로쎄스 
는 실행과일과 공유서고코드를 실행 한다. 

여 기 서 살펴 본바와 같이 프로그람을 실행 하는 일은 프로쎄 스추상화, 기 억기 관리，체 계 호 
출, 파일 체 계 같은 다양한 핵 심부설계 와 관련한 복잡한 작업 이 다. 
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